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当今 社会 信息 技术 飞速 发 展 , 经 济 全 球 化 趋势 日 益 明 显 ,市 场 竞 争 激烈 。 生 存在 这 样 一 
个 “信息 爆炸 ”的 时 代 , 企 业 管 理 者 能 否 利用 信息 进行 快速 而 有 效 的 决策 已 直接 关系 到 企业 
的 生死 存亡 。 越 来 越 多 的 企业 提出 对 商务 智能 的 需求 ,商务 智能 的 出 现 和 飞速 发 展 已 成 为 
必然 趋势 。 但 随 着 商务 智能 在 企业 活动 中 的 不 断 进行 ,海量 的 ,具有 潜在 价值 知识 的 信息 便 
混同 一 般 信息 积累 在 企业 商务 智能 系统 中 ,尽管 企业 希望 能 够 提取 出 有 价值 的 信息 ,应 用 各 
种 技术 进行 数据 分 析 , 以 期 将 分 析 结 果 用 于 科学 研究 、 商 业 决 策 或 企业 管理 决策 等 方面 ,但 
目前 市 场 数 据 分 析 工 具 种 类 繁多 , 若 选 择 不 当 就 很 难 对 数据 进行 深层 次 的 处 理 , 无 法 真正 提 
炼 出 信息 的 价值 ,使 得 企业 管理 层 只 能 望 “ 数 ” 兴 叹 。 除 此 之 外 ,电子 商务 数据 类 型 繁多 、 模 
型 复杂 ,以 及 应 用 系统 的 分 布 性 和 异 构 性 都 会 增加 这 些 数据 的 分 析 难 度 , 由 此 数据 挖掘 技术 
应 运 而 生 。 

本 教材 自 2016 年 4 月 出 版 ,经 过 一 年 多 的 使 用 ,根据 学 生 和 教师 的 反馈 ,编者 对 教材 中 
的 相关 内 容 进行 了 改动 。 第 2 版 与 第 1 版 相 比 增加 了 新 的 知识 ,删除 了 一 些 陈旧 或 使 用 较 
少 的 知识 ,使 其 更 加 简练 。 具 体 体 现在 以 下 几 个 方面 。 

(1) 增加 了 新 的 技术 知识 。 

增加 了 第 1 章 商务 智能 系统 框架 及 数据 流程 的 相关 知识 。 

@ 增加 了 第 2 章 数据 可 视 化 的 内 容 。 

@ 增加 了 第 7 章 深 度 学 习 的 内 容 。 

(2) 对 原 第 4.5 10 章 重 新 组 织 编写 ,使 其 内 容 更 贴切 、 更 充实 。 

@ 第 4 章 对 决策 树 和 支持 向 量 机 进行 了 重新 描述 ,去 掉 了 BP 神经 网 络 算法 ,增加 了 粗 
糙 集 的 阐述 。 

@ 第 5 章 对 Apriori 算法 .Apriori 改进 算法 以 及 FP 增长 算法 进行 了 重新 描述 。 

@ 去 掉 了 原 第 7 章 。 

由 原 第 10 章 改 为 现 第 9 章 , 重 新 举例 并 深入 阐述 了 数据 挖掘 在 电子 商务 中 的 典型 
应 用 。 
本 书 各 章 编写 分 工 如 下 : 蔡 晓 妍 编写 第 1.3 章 ; 杨 丽 丽 编写 第 2 章 ; 朱 珊 娜 编写 第 4 
章 ; 李 梅 编写 第 5 章 ; 梁 春 泉 编 写 第 6 章 ; 杨 黎 斌 编写 第 7.9 章 ; 张 晓 婷 编写 第 8 章 。 蔡 晓 
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妍 负责 全 书 的 策划 .大纲 的 制定 和 统 繁 工作 。 

本 书 在 编写 过 程 中 ,参考 了 一 些 优秀 教材 和 论文 ,在 此 对 所 有 被 引用 文献 的 原作 者 表示 
里 心 的 感谢 。 研 究 生 郭 蓝 天 、 何 健 、 张 野 和 吕 多 分别 对 本 书 进行 了 校对 并 提出 了 宝贵 的 建 
议 , 特 在 此 表示 感谢 。 由 于 编者 水 平 所 限 , 书 中 如 有 不 妥 之 处 ,欢迎 读者 批评 指正 。 


编 者 
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商务 智能 概述 


随 着 世界 经 济 全 球 化 的 迅猛 发 展 ,生产 国际 化 的 趋势 不 断 加 强 ,企业 必须 能 够 在 瞬息 万 
变 的 环境 下 及 时 做 出 反应 。 为 了 迎接 市 场 的 挑战 ,企业 需要 对 市 场 有 准确 的 把 握 , 分 析 顾 客 
的 消费 趋势 , 找 出 企业 经 营 中 出 现 的 问题 ,加 强 与 供应 链 合作 伙伴 的 关系 ,挖掘 新 的 商业 机 
会 ,并 能 够 对 未 来 进行 预测 。 随 着 企业 信息 化 的 发 展 ,各 种 应 用 系统 产生 的 数据 量 平均 18 
个 月 就 翻 一 番 。 如 何 充分 利用 这 些 数据 资产 ,挖掘 出 决策 者 需要 的 信息 ,做 出 高 质量 的 决策 
是 企业 管理 者 需要 考虑 的 问题 。 近 年 来 ,数据 集成 .数据 分 析 、 大 容量 数据 存储 与 并 行 处 理 
等 技术 不 断 成 熟 ,成 本 不 断 下 降 , 企 业 各 种 应 用 软件 积累 了 大 量 的 数据 。 这 些 因素 促进 了 商 
务 智能 的 发 展 。 商 务 智能 (Business Intelligence，BI) 可 以 将 各 种 数据 及 时 地 转换 为 支持 决 
策 的 信息 和 知识 ,帮助 企业 管理 者 了 解 顾客 的 需求 与 消费 习惯 ,预测 市 场 的 变化 趋势 以 及 行 
业 的 整体 发 展 方向 ,进行 有 效 的 决策 ,从 而 在 竞争 中 占据 有 利 地 位 。 


1.1 商务 智能 的 概念 


商务 智能 越 来 越 受 到 学 术 界 和 产业 界 的 青睐 ,逐渐 成 为 目前 国内 外 企业 界 和 软件 开发 
界 备 受 关注 的 一 个 研究 热点 。 作 为 一 项 新 兴 的 技术 ,在 过 去 的 十 多 年 间 , 围 绕 商 务 智能 的 理 
论 方法、 技术 等 的 研究 和 应 用 已 经 取得 了 许多 令 人 瞩目 的 成 就 。 

目前 ,不 少 企业 积累 的 海量 数据 不 仅 没 能 给 企业 带 来 财富 ,相反 却 使 得 企业 淹没 于 数据 
之 中 ,形成 一 个 个 信息 孤岛 和 数据 坟墓 。 企业 面临 着 由 于 数据 库 变 得 越 来 越 庞 大 而 带 来 的 
对 数据 管理 的 困难 。 如 何 充 分 利用 这 些 数 据 , 为 企业 的 经 营 决 策 服 务 ? 这 就 需要 一 种 合适 
的 数据 处 理 和 数据 分 析 工 具 。 


1.1.1 数据 ,信息 与 知识 
在 信息 时 代 , 数 据 是 宝贵 的 财富 ,但 只 有 充分 利用 这 种 财富 ,识别 信息 ,获取 知识 ,辅助 
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商业 决策 才能 从 中 获得 价值 。 

1. 数据 

数据 是 用 来 记录 、 描 述 和 识别 事物 的 按 一 定 规则 排列 组 合 的 物理 符号 ,是 一 组 表述 数 
量 , 行 动 和 目标 的 非 随机 的 可 鉴别 的 符号 ,是 客观 事物 的 属性 ,数量 ,位置 及 其 相互 关系 等 的 
抽象 表示 , 它 以 适合 于 用 人 工 或 自然 的 方式 进行 保存 .传递 和 处 理 。 它 既 可 以 是 数字 文字、 
图 形 ,图像 .声音 或 者 味道 ,也 可 以 是 计算 机 代码 。 在 计算 机 科学 中 ,数据 是 指 所 有 能 输入 到 
计算 机 中 具有 一 定 意义 的 数字 .字母 .符号 和 模拟 量 等 并 能 够 被 计算 机 程序 处 理 的 符号 介质 
的 总 称 ,是 计算 机 能 够 识别 的 二 进 制 数 的 形式 。 

数据 本 身 是 孤立 的 、 互 不 关联 的 客观 事实 文字、 数字 和 符号 ,没有 上 下 文 和 解释 。 数 据 
表达 的 仅仅 是 一 个 描述 ,如 20140112 ,我 们 只 知道 这 是 一 个 数字 ,或 者 可 以 看 作 是 日 期 ,对 
于 这 个 数字 来 说 , 它 就 是 数字 ,不 表示 别 的 任何 含义 。 

数据 是 用 属性 描述 的 ,属性 也 称 变量 ,特征 .字段 或 维 。 数 据 经 过 处 理 仍然 是 数据 ,只 有 
经 过 解释 ,数据 才 有 意义 ,才能 成 为 信息 。 

2. 信息 

信息 是 指 人 们 对 数据 进行 系统 的 收集 ,整理 ,管理 和 分 析 的 结果 ,是 经 过 一 系列 的 提炼 、 
加 工 和 集成 后 的 数据 。 信 息 是 对 客观 世界 各 种 事物 特征 的 反映 。 数 据 是 信息 的 符号 表示 ， 
或 称 载体 ,数据 不 经 加 工 只 是 一 种 原始 材料 ,其 价值 只 是 在 于 记录 了 客观 数据 的 事实 。 信 息 
是 数据 的 内 涵 , 是 对 数据 的 解释 。 信 息 可 以 是 完整 的 ,也 可 以 是 片段 的 ; 可 以 是 关于 过 去 
的 ,或 者 关于 现在 的 ,也 可 以 是 涉及 未 来 的 。 目 前 天 气 很 热 ,气温 高 达 35 ,这 条 信息 描述 
的 是 现在 的 天 气 状况 。 参 考 过 去 连续 三 年 的 气温 记录 ,每 年 这 一 天 的 历史 温度 都 高 于 
37'C ,这 是 关于 过 去 的 信息 。 如 果 根 据 这 两 天 信息 预测 明天 的 气温 至 少 为 37 ,那么 这 是 
涉及 未 来 的 信息 。 尽 管 明天 高 温 天 气 是 有 可 能 的 ,甚至 是 必然 的 ,但 这 种 预测 未 来 的 信息 多 
少 会 带 有 不 确定 性 ,为 了 减少 不 确定 性 ,提高 置信 度 ,必须 对 信息 进行 提炼 .加 工 和 集成 。 

3. 知识 

所 谓 知识 ,就 它 反 映 的 内 容 而 言 ,是 客观 事物 的 属性 与 联系 的 反映 ,是 客观 世界 在 人 脑 
中 相对 正确 的 反映 。 就 它 反映 的 活动 形式 而 言 , 有 时 表现 为 主体 对 事物 的 感性 直觉 或 表象 ， 
属于 感性 知识 ,有 时 表现 为 关于 事物 的 概念 或 规律 ,属于 理性 知识 。 知 识 是 在 实践 活动 中 获 
得 的 关于 世界 的 最 本 质 的 认识 ,是 对 信息 的 提炼 、 比 较 挖掘、 分 析 、 概 括 、 判 断 和 推论 。 

一 般 而 言 ,知识 具有 共享 性 、 传 递 性 , 非 损 耗 性 (可 以 反复 使 用 ,其 价值 不 会 减 小 ) 及 再 生 
性 等 特点 。 

按 知识 的 复杂 性 可 将 知识 划分 为 显 性 (Explicit) 知 识 和 隐 性 (Tacit) 知 识 , 它 是 知识 最 
基本 和 最 重要 的 划分 结构 。 显 性 知识 是 用 系统 .正式 的 语言 传递 的 知识 ,可 以 编码 和 度量 ， 
可 以 清晰 地 表达 出 来 ,易于 传播 ,可 以 在 人 与 人 之 间 进 行 直接 的 交流 ,通常 以 语言 文字 (如 书 
籍 文件 .网 页 .电子 邮件 等 ) 形 式 存在 。 显 性 知识 的 处 理 可 以 用 计算 机 实现 。 隐 性 知识 是 存 
在 于 人 脑 中 的 , 非 结构 化 的 .与 特定 语 境 相关 的 知识 ,很 难 编码 和 度量 。 隐 性 知识 是 人 们 在 
实践 中 不 断 摸 索 和 反复 体验 形成 的 ,通常 以 直觉 .价值 观 、 推 断 、 经 验 、 技 能 等 形式 表现 出 来 。 
它 难 以 表述 ,但 却 是 个 人 能 力 的 直接 表现 且 更 为 宝贵 。 隐 性 知识 的 处 理 只 能 通过 人 脑 实现 ， 
一 般 要 通过 言传 身 教 和 师 传 徒 等 形式 传播 。 
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数据 信息 和 知识 之 间 的 关系 为 : 从 数据 中 提取 信息 ,从 信息 中 挖掘 知识 ,如 图 1-1 
所 示 。 


数据 去 信息 取 知 识 
数据 : 是 信息 和 知识 的 符号 表示 


信息 : 数据 中 的 内 涵 意 义 
知识 : 是 一 套 具 有 前 因 后 果 关 系 的 信息 ， 是 
人 们 在 长 期 实践 中 总 结 出 来 的 正确 内 容 


图 1-1 数据 ,信息 和 知识 的 区 别 


1.1.2 商务 智能 的 定义 


1989 年 ,美国 加 特 纳 公司 的 分 析 师 Howard Dresner 首次 提出 “商务 智能 ”的 概念 。 商 
务 智 能 可 以 定义 为 一 组 数学 模型 和 分 析 方 法 ,它们 系统 地 开发 可 以 利用 的 数据 ,以 便 检 索 对 
支持 复杂 决策 过 程 有 用 的 信息 和 知识 。 出 于 帮助 企业 所 有 者 打造 更 好 的 商业 的 目的 ,商务 
智能 是 涉及 收集 、 提 供 、 存 取 及 分 析 数 据 的 一 大 类 别 的 应 用 与 技术 。 

商务 智能 从 产生 以 来 一 直 发 展 较 快 ,但 目前 还 不 成 熟 , 企 业界 和 学 术 界 对 商务 智能 存在 
着 或 多 或 少 不 同 的 理解 ,这 里 分 别 列举 几 个 比较 全 面 且 较 新 的 定义 。 

IBM 对 BI 的 定义 :“ 商 务 智能 是 一 系列 技术 支持 的 简化 信息 收集 ,分析 的 策略 集合 。 
通过 使 用 企业 的 数据 资产 来 制定 更 好 的 商务 决策 。 企 业 的 决策 人 员 以 数据 仓库 为 基础 ,经 
过 各 种 查询 分 析 工 具 、 联 机 分 析 处 理 或 者 是 数据 挖掘 ,加 上 决策 人 员 的 行业 知识 ,从 数据 仓 
库 中 获得 有 利 的 信息 ,进而 帮助 企业 提高 利润 ,增加 生产 力 和 竞争 力 。” 

Business Object 公司 对 BI 的 定义 :“ 商 务 智 能 是 一 种 基于 大 量 数据 的 信息 提炼 的 过 
程 ,这 个 过 程 与 知识 共享 和 知识 创造 密切 结合 ,完成 了 从 信息 到 知识 的 转变 ,最 终 为 商家 提 
供 网 络 时 代 的 竞争 优势 和 实 实在 在 的 利润 。” 

Microsoft 公司 对 BI 的 定义 :“ 商 务 智能 是 任何 尝试 获取 ,分 析 企 业 数 据 以 便 更 清楚 地 
了 解 市 场 和 顾客 ,改进 企业 流程 ,更 有 效 地 参与 竞争 的 过 程 。” 

IDC 公司 对 BI 的 定义 :“ 商 务 智能 是 下 列 软件 工具 的 集合 : 终端 用 户 查 询 和 报告 工具 、 
在 线 分 析 处 理工 具 数据 挖掘 软件 ,数据 集 市 .数据 仓库 产品 和 主管 信息 系统 。” 

Oracle 公司 对 BI 的 定义 :“ 商 务 智 能 是 一 种 商务 战略 ,能 够 持续 不 断 地 对 企业 经 营 理 
念 ,组 织 机 构 和 业务 流程 进行 重组 ,实现 以 顾客 为 中 心 的 自动 化 管理 。” 

Data Warehouse Institute 对 BI 的 定义 :“ 商 务 智能 是 把 数据 转换 成 知识 并 把 知识 应 用 
到 商业 运营 的 一 个 过 程 。” 

商务 智能 专家 王 苗 在 总 结 了 商务 智能 的 众多 版 本 之 后 给 商务 智能 下 的 定义 :“ 商 务 智 
能 是 企业 利用 现代 信息 技术 收集 ,管理 和 分 析 结 构 化 和 非 结 构 化 的 商务 数据 和 信息 ,创造 和 
积累 商务 知识 和 见解 ,改善 商务 决策 水 平 ,采取 有 效 的 商务 行动 ,完善 各 种 商务 流程 ,提升 各 
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方面 商务 绩效 ,增强 综合 竞争 力 的 智慧 和 能 力 。” 

利用 现代 信息 技术 一 一 这 是 这 一 定义 中 的 关键 之 一 。 现 代 信 息 技 术 的 发 展 催生 了 信息 
经 济 和 信息 社会 ,在 这 一 新 型 的 经 济 和 社会 形态 中 ,信息 的 爆炸 式 增长 又 产生 了 对 能 够 处 理 
和 控制 信息 的 技术 的 强烈 需求 ,商务 智能 正 是 新 的 信息 技术 在 商务 分 析 中 的 有 效应 用 。 

总 结 上 述 观点 ,商务 智能 是 融合 了 先进 信息 技术 与 创新 管理 理念 的 结合 体 , 它 集成 了 企 
业内 外 的 数据 ,进行 加 工 并 从 中 提取 能 够 创造 商业 价值 的 信息 ,面向 企业 战略 并 服务 于 管理 
层 、 业 务 层 ,指导 企业 经 营 决 策 ,提升 企 业 竞争 力 , 涉 及 企业 战略 .管理 思想 .业务 整合 和 技术 
体系 等 层面 ,促进 信息 到 知识 再 到 利润 的 转化 ,从 而 实现 更 好 的 绩效 。 事 实 上 ,商务 智能 应 
用 的 核心 不 在 其 功能 ,而 在 于 对 业务 的 优化 ,IBM 公司 更 强调 数据 集成 和 数据 分 析 基 础 上 
的 业务 分 析 和 优化 (Business Analytics and Optimization, BAO)。 目 前 ,商务 智能 的 应 用 已 
延伸 到 了 非 商 业 领 域 ,政府 和 教育 部 门 等 也 成 为 了 商务 智能 的 应 用 领域 。 


1.1.3 商务 智能 的 特点 


商务 智能 具有 以 下 主要 特点 ,了 解 这 些 特点 有 助 于 更 好 地 理解 商务 智能 的 内 涵 。 

1. 商务 智能 服务 企业 战略 

商务 智能 能 够 对 企业 的 内 外 部 数据 进行 分 析 , 支 持 企业 战略 管理 。 哈 佛 商学 院 的 迈克 
尔 ，。 波 特 博士 在 Harvard Business Review 一 文中 把 战略 分 为 三 个 方面 : 定位 .取舍 和 配 称 
(各 项 运营 活动 之 间 如 何 关联 ) ,而 商务 智能 可 以 通过 数据 分 析 帮 助 企业 对 这 些 方面 进行 
规划 。 

2. 商务 智能 提升 企业 绩效 

商务 智能 更 多 地 是 用 来 解决 管理 问题 。 通 过 商务 智能 能 从 企业 多 年 运营 的 数据 中 , 挖 
所 有 效 的 模式 辅助 管理 决策 。 随 着 商务 智能 应 用 的 发 展 ,商务 智能 离 业 务 越 来 越 近 。 商 务 
智能 在 企业 绩效 管理 中 扮演 着 重要 的 角色 ,而 商务 智能 相关 的 产品 在 管理 角色 和 方法 ,管理 
职能 和 过 程 等 方面 烙印 渐 深 ,并 且 融 合 了 越 来 越 多 的 企业 管理 的 理念 。 例 如 , Business 
Objects(SAP) 在 2007 年 “商业 智能 点 亮 明 天 ?商务 智能 解决 方案 研讨 会 展示 的 绩效 管理 套 
件 中 包含 管理 仪表 盘 、 计 分 卡 等 工具 。 这 些 工具 不 再 是 色彩 和 图 形 的 结合 ,而 是 包含 大 量 的 
业务 逻辑 关系 和 线性 规划 的 运算 模型 。 

3. 商务 智能 是 “数据 炼油 厂 ” 

商务 智能 可 看 作 “ 数 据 炼油 厂 ”, 根 据 业 务 需 要 收集 数据 ,并 进行 提炼 和 加 工 , 最 终 产 生 
对 企业 有 价值 的 知识 ,提高 企业 的 绩效 。 商 务 智能 需要 整合 企业 的 业务 系统 数据 ,从 而 保证 
足够 的 “原料 补给 ”。 商 务 智能 对 ERP、CRM 和 SCM 等 业务 系统 中 生成 的 运营 数据 进行 分 
析 ,并 给 出 报告 ,帮助 管理 者 认识 企业 和 市 场 的 现状 ,预测 发 展 趋势 ,做 出 正确 的 决策 。 

4. 商务 智能 是 多 项 技术 的 综合 应 用 

随 着 信息 化 的 发 展 ,商务 智能 已 成 为 企业 充分 利用 数据 资产 的 重要 方法 。 它 从 不 同 的 
数据 源 中 提取 有 用 的 数据 ,通过 数据 仓库 、 在 线 分 析 处 理 和 数据 挖掘 等 技术 实现 企业 的 决 
策 .考核 分析 有 机 结合 和 量化 以 达到 为 企业 提供 经 营 管理 ,决策 支持 的 目的 。 最 新 的 商务 
智能 还 涉及 其 他 一 些 新 技术 ,例如 ,内 存 中 的 分 析 处 理 、 面 向 服务 的 软件 架构 (Service 
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Oriented Architecture，SOA) ,文本 挖掘 和 元 数据 存储 等 。 商 务 智 能 在 这 些 技术 的 支持 下 ， 
发 现 数据 背后 隐藏 的 商机 或 威胁 ,洞察 企业 和 市 场 的 现状 ,把 握 趋势 ,识别 异常 情况 ,理解 企 
业 业 务 的 推动 力量 , 认 清 正在 对 企业 的 业务 产生 影响 的 行为 及 影响 程度 。 

5. 商务 智能 用 户 的 多 样 性 


商务 智能 服务 于 各 类 企业 决策 者 。 传 统 应 用 中 ,商务 智能 主要 支持 中 、 高 层 管理 人 员 决 
策 。 目 前 ,商务 智能 平台 的 用 户 包 括 一 线 业务 人 员 、 各 级 管理 者 ,甚至 外 部 的 顾客 和 商业 伙 
伴 。 这 是 因为 业务 经 营 决策 的 范围 发 生 了 扩展 ,包括 操作 层 、 战 术 层 和 战略 层 的 决策 。 


1.1.4 商务 智能 的 过 程 


商务 智能 的 过 程 是 : 首先 需要 准备 正确 可 用 的 数据 ,其 次 要 将 这 些 数据 转化 为 有 价值 
的 信息 ,再 用 于 指导 商业 实践 (智慧 )。 该 过 程 就 包括 数据 抽取 、 分 析 和 挖掘 三 个 主要 环节 ， 
分 别 由 DW、OLAP、DM 技术 来 完成 。 

DW 是 商务 智能 的 基础 和 核心 ,存储 按照 商务 智能 的 要 求 重新 组 织 的 ,来 自 业 务 系统 的 
数据 。 

OLAP 和 DM 在 DW 的 基础 上 进行 分 析 , 提 供给 最 终 用 户 灵活 自主 的 信息 访问 途径 、 
丰富 的 数据 分 析 和 报表 功能 。 

从 系统 的 观点 来 看 ,商务 智能 中 信息 处 理 的 过 程 可 以 归结 为 以 下 三 个 子 过 程 : 数据 获 
取 和 管理 ,数据 整理 和 分 析 、 信 息 展现 和 表示 。 

(1) 数据 获取 和 管理 : 从 不 同 的 数据 源 获 取 有 用 的 数据 ,对 数据 进行 清理 以 保证 数据 
的 正确 性 ,将 数据 经 过 转换 、 重 构 后 存 人 数据 仓库 或 数据 集 市 (这 时 数据 变 为 信息 )。 

(2) 数据 整理 和 分 析 : 通过 合适 的 查询 和 分 析 工 具 、 数 据 挖掘 工具 ,对 信息 进行 处 理 
(这 时 信息 变 为 辅助 决策 的 知识 ) 。 

(3) 信息 展现 和 表示 : 将 管理 与 决策 所 需要 的 知识 呈现 于 用 户 面前 ,支持 管理 与 决策 。 


1.2 商务 智能 的 产生 与 发 展 


商务 智能 的 概念 最 早 是 由 美国 加 特 纳 公司 的 Howard Dresner 于 1996 年 提出 来 的 ,对 
商务 智能 所 涉及 的 一 系列 的 概念 和 方法 进行 了 详细 的 描述 ,通过 应 用 基于 数据 分 析 的 支持 
系统 来 辅助 商业 决策 的 制定 。BI 技术 提供 帮助 企业 迅速 分 析 数 据 的 技术 和 方法 ,包括 收 
集 \ 管 理 和 分 析 数 据 , 将 这 些 数据 转化 为 有 用 的 信息 .然后 分 发 到 企业 各 处 。 近 年 来 ,商务 智 
能 技术 日 趋 成 熟 , 越 来 越 多 的 企业 决策 者 意识 到 需要 商务 智能 来 保持 和 提升 企业 竞争 力 。 
在 美国 ,500 强 企业 中 已 经 有 90% 以 上 的 企业 利用 企业 管理 和 商务 智能 软件 帮助 管理 者 做 
出 决策 。 国 外 已 经 有 很 多 成 功 实施 商务 智能 的 案例 。 目 前 我 国 的 商务 智能 尚 处 于 起 步 阶 
段 ,无 论 是 商务 智能 应 用 的 程度 还 是 其 实际 效果 与 国外 企业 都 有 很 大 差距 。 近 年 来 ,国内 外 
商务 智能 供应 商 和 高 等 院 校 都 开展 了 广泛 的 商务 智能 的 基础 研究 和 应 用 研究 。 


1.2.1 商务 智能 的 产生 和 发 展 过 程 
商务 智能 是 随 着 Internet 的 高 速 发 展 和 企业 信息 化 的 不 断 深入 而 产生 的 。 其 发 展 也 是 
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一 个 渐进 的 、 复 杂 的 演变 过 程 ,而 且 目 前 仍然 处 于 发 展 之 中 。 它 经 历 了 事物 处 理 系统 
(Transaction Processing System，TPS) 高 级 管理 人 员 信 息 系统 (Executive Information 
System，EIS) ,管理 信息 系统 (Management Information System，MIS) 和 决策 支持 系统 
(Decision Support System，DSS) 等 几 个 不 同 阶段 ,最 终 演变 成 今天 的 企业 商务 智能 系统 
(BIS)。 它 是 一 个 可 包含 企业 所 有 知识 的 系统 ,服务 于 管理 决策 层 或 部 门 执行 经 理 ,帮助 其 
进行 分 析 和 决策 。 

TPS 是 以 计算 机 处 理 代替 某 些 手工 操作 ,这 个 时 期 主要 是 借助 计算 机 的 运算 能 力 将 人 
力 从 大 量 的 计算 和 重复 性 的 工作 中 解脱 出 来 。TPS 的 优点 : 效率 提高 , 耗 用 时 间 缩 短 ; 缺 
点 : 完全 “就 事 论 事 ”, 只 完成 了 信息 的 “一 次 利用 ”, 舍 弃 了 信息 的 更 高 价值 的 利用 。TPS 主 
要 是 在 服务 行业 中 直接 针对 广大 顾客 的 某 种 专门 性 事物 处 理 要 求 而 提供 的 一 种 服务 性 系 
统 , 因 此 ,TPS 的 设计 目标 主要 是 方便 顾客 ,为 顾客 提供 高 质量 、 高 效率 以 及 安全 、 可 靠 的 各 
种 专门 性 事物 服务 。 

EIS 指 为 了 满足 无 法 专注 于 计算 机 技术 的 领导 人 员 的 信息 查询 需求 ,而 特意 制定 的 以 
简单 的 图 形 界 面 访问 数据 仓库 的 一 种 应 用 。EIS 根据 预先 定义 的 查询 ,以 报表 或 图 标的 形 
式 向 使 用 者 提供 商业 活动 情况 的 相关 数据 。 这 些 信息 通常 是 一 定时 期 内 的 总 销售 人 额 、 每 种 
产品 的 销售 额 销售 数量 等 。EIS 的 优点 : 使 决策 者 在 一 定 程度 上 掌握 企业 的 业务 运营 状 
况 , 不 至 于 完全 靠 “ 拍 脑袋 "决策; EIS 的 缺点 : 其 应 用 面 太 窗 , 仅 限于 高 .中 层 管理 人 员 的 管 
理 活动 ,依然 得 不 到 信息 支持 。 

MIS 的 出 现 部 分 地 解决 了 EIS 的 问题 , 它 面向 所 有 的 管理 人 员 , 履 盖 了 企业 所 有 的 业 
务 内 容 , 能 够 帮助 管理 人 员 了 解 企业 的 日 常 业 务 , 并 进行 高 效 的 控制 .组织 和 计划 。MIS 的 
优点 : 能 处 理 日 常事 务 , 尤 其 对 中 、 低 层 管理 人 员 更 为 有 效 ; 缺点 : 对 于 高 层 决策 者 而 言 ,无 
法 从 全 局 的 ,战略 的 高 度 给 予 很 大 的 支持 。 

DSS 是 辅助 决策 者 通过 数据 .模型 和 知识 ,以 人 机 交互 方式 进行 半 结 构 化 或 非 结 构 化 
决策 的 计算 机 应 用 系统 。 它 是 管理 信息 系统 向 更 高 一 级 发 展 而 产生 的 先进 信息 管理 系统 。 
它 为 决策 者 提供 分 析 问 题 .建立 模型 .模拟 决策 过 程 和 方案 的 环境 ,调用 各 种 信息 资源 和 分 
析 工 具 , 帮 助 决策 者 提高 决策 水 平和 质量 。 

结构 化 决策 是 指 对 某 一 决策 过 程 的 环境 及 规则 ,能 用 确定 的 模型 或 语言 描述 ,以 适当 的 
算法 产生 决策 方案 ,并 能 从 多 种 方案 中 选择 最 优 解 的 决策 。 

非 结 构 化 决策 是 指 决策 过 程 复杂 ,不 可 能 用 确定 的 模型 和 语言 来 描述 其 决策 过 程 ,更 无 
所 谓 最 优 解 的 决策 。 

半 结 构 化 决策 是 介 于 以 上 两 者 之 间 的 决策 ,这 类 决策 可 以 建立 适当 的 算法 产生 决策 方 
案 , 使 决策 方案 得 到 较 优 的 解 。 

非 结 构 化 和 半 结 构 化 决策 一 般 用 于 一 个 组 织 的 中 、 高 管理 层 ,其 决策 者 一 方面 需要 根据 
经 验 进行 分 析 判 断 , 另 一 方面 也 需要 借助 计算 机 为 决策 提供 各 种 服务 信息 ,及 时 做 出 正确 有 
效 的 决策 。 

BIS、.DSS、MIS、EIS 和 TPS 之 间 的 区 别 如 图 1-2 所 示 。 


1.2.2 商务 智能 与 其 他 系统 的 关系 
商务 智能 作为 一 种 企业 信息 集成 解决 方案 ,是 一 个 分 析 型 系统 。 一 方面, 它 为 企业 不 同 


国定 。 决策 ”输入 /分析 与 处 理 的 
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图 1-2 BIS.DSS、MIS、EIS 和 TPS 之 间 的 区 别 


的 应 用 系统 ,如 企业 资源 规划 (ERP) 、 客 户 关系 管理 (CRM) 、 供 应 链 管理 (SCM) ,办 公 自 动 
化 (OA) .电子 商务 (E-Commerce) 以 及 外 部 扫描 环境 (Environmental Scanning) 等 系统 之 间 
架 起 了 互通 的 桥梁 ,同时 这 些 信息 化 系统 也 为 BI 提供 了 数据 源 ; 另 一 方面 , 它 的 价值 又 在 
这 些 系统 之 上 ,可 以 发 现 数据 背后 隐藏 的 商机 或 威胁 ,获得 洞察 力 , 了 解 企 业 和 市 场 的 现状 、 
把 握 趋势 .识别 异常 情况 ,理解 企业 业务 的 推动 力量 、 认 清正 在 对 企业 的 业务 产生 影响 的 行 
为 及 影响 的 程度 如 何等 。 总 之 ,BI 可 以 给 整个 企业 带 来 决策 的 快速 性 和 准确 性 ,发 现 问题 
的 及 时 性 ,以 及 发 现 那些 对 手 尚未 发 现 的 潜在 的 知识 和 规律 。 

1. BI 与 其 他 系统 之 间 的 区 别 

BI 与 其 他 系统 之 间 的 区 别 可 以 从 以 下 两 个 方面 来 理解 。 

(1) 系 统 设计 的 区 别 。 交 易 系 统 把 交易 强加 于 业务 之 上 ,不 管 谁 来 进行 一 项 业务 ,都 得 
遵循 同样 的 程序 和 规则 ,而 且 一 旦 一 个 交易 系统 设计 出 来 以 后 ,轻易 不 会 改变 。 而 商务 智能 
则 能 适用 商务 ,因为 BI 是 一 个 学 习 分 析 型 系统 ,能 适应 商务 的 不 断 变化 。 若 BI 不 能 变化 以 
解决 新 的 问题 ,就 不 能 满足 商务 的 需求 。 从 技术 的 角度 讲 ,BIS 中 变化 的 是 数据 ,数据 类 型 、 
元 数据 .报告 和 应 用 软件 。BI 的 真正 挑战 就 在 于 设计 和 管理 一 个 总 在 变化 的 系统 。 

(2) 数 据 类 型 的 区 别 。 两 者 所 管理 的 数据 类 型 不 同 。 交 易 系 统 跟踪 的 是 最 近 的 交易 情 
况 ,保留 极其 有 限 的 历史 数据 (通常 只 有 60 一 90 天 )。 而 BI 系统 维持 来 自 多 个 交易 系统 的 、 
多 年 的 交易 情况 , 且 数 据 量 很 大 (一 般 几 十 个 甚至 上 百 个 TB)。 

2. BI 与 报表 系统 

传统 的 报表 系统 和 BI 存在 着 本 质 的 区 别 。 传 统 的 业务 报表 系统 一 般 被 设计 成 扁平 系 
统 , 主 要 是 针对 分 离 的 事物 处 理 , 但 对 结构 化 的 分 析 和 统计 却 无 能 为 力 。 一 个 独立 的 BI 系 
统 ,能 够 从 多 种 异 构 的 应 用 系统 中 获取 各 类 业务 数据 ,并 通过 数学 模型 建立 多 层次 的 分 析 系 
统 , 最 终 将 其 转化 为 具有 一 定 商业 意义 的 信息 。 

BI 的 应 用 需求 往往 复杂 多 变 , 而 且 它 的 实施 过 程 的 复杂 性 也 要 远 远 超过 传统 的 报表 系 
统 。 所 以 在 进行 BI 系统 的 实施 过 程 中 , 绝 不 能 受 传统 事物 处 理 系统 思维 模式 的 影响 和 
制约 。 

BI 和 传统 的 报表 系统 在 应 用 对 象 及 目的 上 也 是 有 区 别 的 。 一 般 而 言 ,BI 更 加 关注 企业 
长 期 的 战略 决策 ,甚至 更 侧重 于 商业 趋势 和 业务 单元 的 联系 ; 而 传统 的 报表 系统 则 注重 企 
业 的 短期 运作 支持 ,更 加 强调 的 是 具体 的 数据 和 精确 度 。 
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3.BI 与 ERP 

BI 与 ERP 的 共性 就 是 使 企业 运行 效率 更 高 .响应 更 及 时 及 易于 整合 。 从 基础 架构 的 
角度 上 看 ,BI 和 ERP 有 以 下 几 点 相似 之 处 。 

(1) BI 和 ERP 都 是 采用 分 布 式 结构 存储 海量 数据 。 

(2) BI 和 ERP 都 能 为 大 范围 终端 用 户 提供 深度 访问 的 能 力 。 

(3) BI 和 ERP 都 具有 高 度 的 分 布 性 和 应 用 程序 的 可 扩展 性 ,尽管 这 种 特性 在 BI 上 体 
现 得 不 是 很 明显 。 

(4) BI 和 ERP 基于 相同 的 前 提 , 都 是 利用 直接 或 者 间接 数据 作为 预测 工作 的 信息 
参考 。 

尽管 BI 和 ERP 之 间 存 在 许多 共同 之 处 ,但 BI 和 ERP 绝 不 是 同一 个 事物 或 是 同一 个 
事物 体 的 两 个 方面 ,而 是 互补 的 系统 。 因 而 ,两 者 之 间 也 存在 以 下 区 别 。 

(1) BI 和 ERP 都 是 基于 现代 信息 技术 进行 商业 判断 ,只 是 其 功能 特点 各 有 不 同 ,BI 主 
要 是 针对 商务 智能 ,而 ERP 则 侧重 于 业绩 跟踪 。 

(2) 通 过 整合 ,ERP 系统 涉及 的 所 有 业务 流程 得 到 了 充分 的 协调 ,从 而 打破 了 原 有 的 部 
分 分 割 局 面 。 不 仅 企业 内 部 所 有 环节 的 信息 获知 能 力 都 得 到 了 提升 ,打破 了 企业 内 外 的 业 
务 处 理 瓶 颈 ,其 响应 速度 也 得 到 了 极 大 的 改善 。 

(3) BI 使 得 用 户 在 一 些 关 键 领域 的 信息 获取 能 力 和 掌控 精度 得 到 了 极 大 的 提高 ,主要 
表现 在 以 下 几 个 方面 : 首先 , 极 大 程度 地 改良 了 报告 的 格式 ,通过 整合 用 户 数据 使 报告 进行 
得 更 快 . 更 及 时 、 更 精确 ; 其 次 ,信息 传输 也 更 加 实时 化 , 极 大 地 缩短 了 信息 在 企业 内 部 各 部 
门 之 间 周 转 的 时 间 ; 最 后 ,能 够 及 时 发 现 业 务 处 理 流程 中 可 能 出 现 的 问题 及 错漏 ,能 准确 迅 
速 地 实施 纠 错 。 

(4) 通过 BI, 原 先 分 散 、 孤 立 的 企业 数据 按 历史 记录 顺序 彼此 相关 了 ,而 且 能 按 高 效 、 易 
于 提取 的 结构 进行 存储 。 

4. BI 与 DSS 、EIS 


作为 一 种 新 型 的 决策 支持 系统 ,与 传统 的 DSS 和 EIS 相 比 ,BI 在 很 多 方面 都 存在 显著 

(1) 在 使 用 对 象 上 。 传 统 的 DSS 和 EIS 仅 局 限于 企业 的 高 层 决策 者 ,分析 人 员 , 而 BI 
的 使 用 对 象 扩 展 到 企业 组 织 内 外 的 各 类 人 员 ,为 他 们 提供 决策 支持 服务 , 既 包 括 企 业 的 领 
导 、 企 业内 部 各 部 门 的 职能 人 员 ,也 有 客户 .供应 商 、 合 作 伙伴 等 企业 外 部 用 户 。 

(2) 在 具有 的 功能 上 。 与 传统 的 DSS 和 EIS 相 比 ,BI 具有 传统 的 DSS 和 EIS 所 不 具 
备 的 功能 强大 的 数据 管理 .数据 分 析 与 知识 发 现 能 力 。 

(3) 在 知识 库 状态 方面 。 在 建成 的 DSS 和 EIS 系统 中 预先 设置 好 知识 库 是 传统 的 
DSS 和 EIS 系统 的 特点 ,而 且 知识 库 中 的 知识 一 般 很 少 发 生变 化 ,即便 是 发 生变 化 ,也 只 
采用 定期 人 为 更 新 的 方法 。 但 BI 系统 中 的 知识 库 是 动态 变化 的 ,其 数据 大 多 是 从 企业 各 应 
用 系统 中 抽取 的 , 且 可 以 对 已 有 的 数据 仓库 或 数据 集 市 进行 数据 挖掘 、OLAP 等 操作 ,从 而 
发 现 新 知识 ,并 随时 对 知识 库 中 的 内 容 进行 补充 和 修正 。 

就 实施 的 目标 而 言 ,BI 和 DSS、EIS 都 是 为 了 提高 企业 决策 的 效率 和 准确 性 ,然而 ,BI 
在 一 些 方面 也 存在 不 足 之 处 。 利 用 数据 分 析 、 知 识 发 现 等 工具 ,BI 为 企业 提供 了 有 价值 的 
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辅助 决策 的 信息 和 知识 ,然后 用 户 再 将 这 些 信息 和 知识 与 企业 的 知识 和 经 验 相 结合 进行 判 
断 , 最 后 做 出 明智 的 决定 ,其 智能 决策 的 能 力 非常 有 限 。DSS 和 EIS 等 专门 的 决策 支持 系 
统 具 有 方案 生成 .方案 协调 方案 评估 等 功能 ,其 群体 决策 的 能 力 是 BI 所 不 具备 的 。 


1.3 商务 智能 的 研究 内 容 


商务 智能 主要 包括 数据 预 处 理 、 建 立 数据 仓库 .数据 分 析 和 数据 展现 4 个 主要 阶段 。 数 
据 预 处 理 是 整合 企业 原始 数据 的 第 一 步 , 包 括 数据 的 抽取 .转换 和 装载 三 个 过 程 。 建 立 数据 
仓库 则 是 处 理 海量 数据 的 基础 。 数 据 分 析 是 体现 系统 智能 的 关键 ,一 般 采 用 联机 分 析 处 理 
和 数据 挖掘 两 大 技术 。 联 机 分 析 处 理 不 仅 进 行 数据 汇总 .聚集 ,同时 还 提供 切片 、. 切 块 .下 
钻 、 上 卷 和 旋转 等 数据 分 析 功 能 ,用 户 可 以 方便 地 对 海量 数据 进行 多 维 分 析 。 数 据 挖掘 的 目 
标 则 是 挖掘 数据 背后 隐藏 的 知识 ,通过 关联 分 析 、 聚 类 和 分 类 等 方法 建立 分 析 模 型 ,预测 企 
业 未 来 发 展 趋势 和 将 要 面临 的 问题 。 在 海量 数据 和 分 析 手 段 增多 的 情况 下 ,数据 展现 则 主 
要 保障 系统 分 析 结 果 的 可 视 化 。 

针对 商务 智能 的 4 个 阶段 ,目前 的 研究 热点 主要 集中 在 三 个 方面 : 支撑 技术 的 研究 、 体 
系 结构 的 研究 、 应 用 系统 的 研究 。 

1. 支撑 技术 的 研究 

商务 智能 作为 一 个 在 20 世纪 90 年 代 末 期 出 现 的 跨 学 科 新 兴 领 域 ,必须 借鉴 两 方面 的 
先进 成 果 : 一 是 计算 机 技术 的 前 沿 技 术 ; 二 是 企业 管理 方面 的 新 理论 、 新 观点 。 企 业 管理 
方面 的 新 理论 ,新 观点 为 战略 制定 和 决策 提供 先进 的 管理 模式 ,帮助 企业 更 好 地 运营 ; 先进 
的 计算 机 技术 是 提高 系统 性 能 的 有 力 手 段 。 

商务 智能 的 支撑 技术 包括 以 下 几 项 : 一 是 计算 机 技术 ,包括 数据 仓库 .数据 集 市 技术 、 
数据 挖掘 技术 、OLTP、OLAP 等 分 析 技术 ,以 及 数据 可 视 化 技术 .计算 机 网 络 与 Web 技术 ; 
二 是 企业 管理 方面 的 理论 和 方法 ,包括 统计 、 预 测 等 运筹 学 方法 ,客户 管理 ,供应 链 管理 , 企 
业 资 源 计 划 等 管理 理论 和 方法 ,以 及 企业 建 模 方法 。 

支撑 技术 的 研究 主要 围绕 两 部 分 展开 : 决策 分 析 工 具 研究 和 企业 建 模 方法 研究 。 决 策 
分 析 工 具 研 究 包括 数据 挖掘 算法 研究 及 各 种 分 析 方法 研究 。 企 业 建 模 是 解决 如 何 建立 特定 
企业 模式 的 辅助 工具 。 

2. 体系 结构 的 研究 

商务 智能 面向 特定 应 用 会 有 相应 的 体系 结构 ,使 商务 具有 更 好 的 性 能 。 例 如 ,建立 什么 
样 的 数据 存储 和 数据 模型 能 很 好 地 支持 主题 和 数据 分 析 及 知识 发 现 的 需要 ; 选择 何 种 决策 
分 析 工 具 , 包 括 选择 实现 何 种 任务 .选择 实现 这 种 任务 的 何 种 工具 ; 将 分 析 和 发 现 的 信息 及 
知识 通过 何 种 接口 达到 需要 的 用 户 等 。 

3. 应 用 系统 的 研究 

对 应 用 系统 的 研究 重点 在 于 对 各 个 应 用 领域 所 面临 的 决策 问题 的 分 析 。 根 据 各 类 问题 
的 解决 方式 和 解决 方案 来 决定 商务 智能 系统 应 该 提供 的 功能 以 及 具体 实现 方法 。 目 前 , 商 
务 智能 被 广泛 应 用 于 与 企业 运用 过 程 相关 的 各 个 领域 .并 且 在 很 多 领域 已 经 形成 其 特有 体 
系 。 目前 ,具有 代表 性 的 应 用 领域 包括 企业 资源 计划 (ERP) 、 客 户 关系 管理 (CRM) ,企业 性 
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能 管理 (BPM) 、 人 力 资源 管理 (HRM) ,供应 链 管理 (SCM) .电子 商务 (E-Business) 。 

与 DSS、EIS 系统 相 比 ,商务 智能 具有 更 美好 的 发 展 前 景 。 随 着 企业 CRM、ERP、SCM 
等 应 用 系统 的 引入 ,企业 不 再 停留 在 事物 处 理 过 程 而 开始 注重 有 效 利用 其 数据 ,为 准确 和 更 
快 的 决策 提供 支持 的 需求 越 来 越 强烈 ,由 此 带动 的 对 商务 智能 的 需求 将 是 巨大 的 。 


1.4 商务 智能 系统 的 支撑 技术 


商务 智能 是 在 计算 机 软 硬 件 、 网 络 决策 分 析 等 多 种 技术 成 熟 的 基础 上 出 现 的 ,是 通过 对 
数据 整理 与 分 析 为 决策 提供 依据 的 一 项 技术 ,商务 智能 技术 是 运用 了 数据 仓库 .OLAP 和 
数据 挖掘 等 技术 来 处 理 和 分 析 数 据 的 技术 ,能 够 帮助 企业 进行 经 营 分 析 、 战 略 支 持 和 绩效 
管理 。 

数据 仓库 技术 、OLAP 数据 挖掘 技术 是 商务 智能 系统 的 三 大 支撑 技术 ,其 中 数据 仓库 
是 商务 智能 的 基础 ,OLAP 与 数据 挖掘 是 商务 智能 系统 中 的 数据 分 析 工 具 。 数 据 仓 库 的 作 
用 是 为 系统 中 的 分 析 工 具 提 供 数据 基础 ,OLAP 和 数据 挖掘 的 作用 是 要 把 数据 仓库 中 的 数 
据 变 成 知识 ,把 潜在 的 知识 变 成 可 以 为 工作 所 用 的 知识 ,帮助 我 们 在 业务 管理 和 发 展 上 及 时 
做 出 正确 的 判断 ,为 决策 者 提供 问题 解决 方案 以 及 决策 依据 。 

1. 数据 仓库 技术 

数据 仓库 是 一 个 用 于 更 好 地 支持 企业 或 组 织 的 决策 分 析 处 理 的 数据 集合 ,面向 主题 、. 集 
成 的 .随时 间 不 断 变化 的 .支持 管理 决策 的 制定 。 数 据 仓 库 是 以 关系 数据 库 .并 行 处 理 和 分 
布 式 技术 为 基础 的 ,具有 丰富 的 数据 采集 .数据 管理 .数据 分 析 和 信息 描述 能 力 。 数 据 仓 库 
技术 的 智能 是 有 限 的 ,其 关键 技术 包括 数据 的 抽取 、 清 洗 转换、 加 载 和 维护 。 

数据 仓库 是 商务 智能 解决 方案 的 基石 ,是 企业 长 期 事务 数据 的 准确 汇总 。 数 据 仓库 完 
成 了 数据 的 收集 、 集 成 .存储 ,管理 等 工作 ,商务 智能 面 对 的 是 经 过 加 工 的 数据 ,使 得 商务 知 
能 更 专注 于 信息 的 提取 和 知识 的 发 现 。 通 过 数据 仓库 ,商务 智能 系统 可 皂 取 与 载 人 原始 资 
料 ,归并 各 种 数据 源 并 以 Web 界面 为 企业 主管 提供 信息 分 析 与 查询 ,支持 企业 管理 与 商业 
决策 。 商 务 智能 要 充分 发 挥 潜力 ,就 必须 和 数据 仓库 的 发 展 结合 起 来 。 

2. OLAP 


OLAP 同 数据 仓库 密切 相关 , 它 用 于 支持 复杂 的 数据 库 分 析 操 作 , 偏 重 对 决策 人 员 提 
供 支持 ,可 以 对 大 数据 量 的 信息 进行 快速 .灵活 的 复杂 查询 处 理 。OLAP 利用 数据 仓库 的 
多 维 数据 进行 在 线 数据 分 析 , 在 生成 新 的 信息 的 同时 ,监测 商务 运作 的 成 效 , 并 按 用 户 的 要 
求 将 复杂 的 分 析 查 询 结 果 快速 地 返回 给 用 户 。 

OLAP 是 在 数据 仓库 基础 上 的 在 线 应 用 ,是 商务 智能 中 不 可 缺少 的 一 部 分 ,是 商务 智 
能 的 分 析 处 理工 具 之 一 , 它 从 多 种 角度 对 原始 数据 进行 分 析 , 将 其 转化 为 真实 反映 企业 经 营 
情况 的 并 用 户 所 能 理解 的 信息 ,使 用 户 对 数据 有 更 深入 的 了 解 ,为 决策 提供 依据 。 

3. 数据 挖掘 技术 

数据 挖掘 是 一 种 决策 支持 过 程 ,是 一 种 数据 分 析 工具 , 它 结合 了 机 器 学 习 、 数 理 逻 辑 \ 统 
计 学 ,数据库 技术 和 人 工 智 能 技术 等 众多 领域 的 知识 ,是 解决 从 大 量 信息 中 获取 有 用 知识 、 
提供 决策 支持 的 有 效 途径 。 先 进 的 数据 挖掘 技术 如 人 工 神经 网 络 、 文 本 挖掘 Web 挖掘 的 


出 现 , 进 一 步 提高 了 数据 挖掘 分 析 数 据 的 能 力 。 

随 着 企业 数据 量 的 急剧 增 大 ,数据 理解 和 数据 产生 之 间 出 现 了 越 来 越 大 的 距离 。 数 据 
挖掘 就 是 为 解决 这 一 矛盾 而 出 现 的 一 种 新 型 数据 分 析 技 术 。 数 据 挖掘 技术 的 智能 化 程度 最 
高 , 它 能 高 度 自动 化 地 分 析 企 业 数 据 库 或 数据 仓库 中 的 数据 ,做 出 归纳 性 的 推理 ,从 中 挖掘 
出 潜在 的 模式 , 找 出 企业 经 营 者 可 能 忽视 的 信息 ,以 便 以 容易 理解 和 观察 的 形式 反映 给 用 
户 , 帮 助 企业 的 决策 者 调整 市 场 策略 ,减少 风险 ,做 出 正确 的 决策 。 为 了 充分 利用 企业 内 外 
流动 的 大 量 商业 数据 ,企业 商业 智能 系统 必须 采用 数据 挖掘 技术 实现 商务 知识 的 发 现 ,才能 
真正 实现 智能 化 。 

这 三 种 技术 不 是 相互 独立 地 存在 于 商务 智能 系统 中 ,而 是 相辅相成 、 互 为 补充 的 。 数 据 
仓库 不 仅 是 商务 智能 的 核心 技术 ,也 是 OLAP 与 数据 挖掘 的 重要 技术 基础 ,OLAP 和 数据 
挖掘 是 数据 仓库 上 获取 两 种 不 同 目标 的 数据 增值 技术 ,它们 以 数据 仓库 中 的 数据 为 分 析 对 
象 , 从 数据 仓库 中 发 现 知识 ,为 决策 服务 。OLAP 和 数据 挖掘 都 可 用 于 数据 分 析 , 两 者 有 一 
定 的 区 别 : OLAP 是 一 个 交互 的 ,在 线 的 过 程 ,数据 挖掘 是 一 个 自动 的 过 程 ;从 数据 分 析 来 
讲 ,OLAP 是 一 个 浅 层 次 的 过 程 ,数据 挖掘 是 一 个 深层 次 的 过 程 ,后 者 可 以 发 现 更 细致 更 
有 价值 的 信息 。 这 两 种 技术 在 一 定 程度 上 的 融合 ,会 使 分 析 操 作 智能 化 ,使 挖掘 操作 目标 
化 ,从 而 全 面 提升 商务 智能 技术 的 实用 价值 。 即 一 方面 ,OLAP 可 以 为 数据 挖掘 预期 的 挖 
掘 对 象 和 目标 ,避免 挖掘 的 盲目 性 ; 另 一 方面 ,数据 挖掘 技术 可 以 使 OLAP 智能 化 ,减少 分 
析 人 员 的 负担 。 因 此 ,基于 数据 仓库 的 OLAP 与 数据 挖掘 技术 的 融合 和 互补 ,使 得 商务 智 
能 系统 最 大 限度 地 实现 其 智能 化 。 

除了 以 上 三 种 技术 ,商务 智能 系统 中 还 采用 了 其 他 一 些 先进 技术 ,如 可 视 化 技术 ,企业 
信息 门户 技术 等 ,它们 也 是 商务 智能 系统 中 不 可 或 缺 的 。 

可 视 化 技术 是 随 着 数据 挖掘 技术 和 信息 可 视 化 技术 的 发 展 而 产生 的 。 它 有 效 地 把 人 的 
感知 能 力 和 领域 知识 应 用 到 数据 挖掘 的 过 程 中 ,为 人 类 与 计算 机 这 两 个 信息 处 理 系统 之 间 
提供 了 一 个 接口 。 使 用 有 效 的 可 视 化 技术 ,可 以 快速 高 效 地 与 大 量 数据 打交道 ,以 发 现 其 中 
急 藏 的 特征 、 关 系 .模式 和 趋势 等 ,可 以 引导 出 新 的 预见 和 更 高 效 的 决策 。 一 些 数 据 挖 扎 技 
术 和 算法 让 决策 者 难以 理解 和 使 用 ,可 视 化 可 以 使 数据 和 挖掘 结果 更 容易 理解 。 它 允许 对 
结果 进行 比较 和 检验 ,也 用 于 指导 数据 挖掘 算法 ,使 用 户 参 与 到 决策 分 析 的 过 程 中 。 

企业 信息 门户 技术 提供 了 一 个 用 户 与 企业 的 商业 信息 和 应 用 软件 的 接口 。 通 过 企业 信 
息 门户 ,商务 智能 系统 成 为 对 不 同 用 户 提供 不 同 信息 ,并 在 透明 层 内 实现 企业 信息 收集 ,组 
织 和 集成 的 商业 信息 智能 网 络 。 企 业 信 息 门户 技术 在 商务 智能 中 的 应 用 前 景 异 常 广阔 。 


1.5 商务 智能 系统 框架 及 数据 流程 


随 着 企业 的 不 断 发 展 ,积累 的 数据 和 信息 海量 增长 ,而 激烈 的 市 场 竞 争 加 剧 了 企业 对 富 
有 价值 的 数据 和 信息 的 依赖 性 。 无 论 是 外 部 市 场 开 拓 ,还 是 企业 内 部 管理 控制 ,企业 越 来 越 
依赖 通过 信息 共享 平台 对 商务 数据 进行 多 维度 分 析 , 以 满足 信息 资源 的 集中 式 和 精确 化 管 
理 ,进而 及 时 准确 地 满足 决策 的 需要 ,显然 这 种 为 企业 提供 全 面 服务 的 信息 系统 是 一 种 商务 
智能 系统 。 

商务 智能 系统 是 指 运用 数据 仓库 、 在 线 分 析 和 数据 挖掘 技术 来 处 理 和 分 析 商 业 数 据 ,并 
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提供 针对 不 同行 业 特点 或 特定 应 用 领域 的 解决 方案 来 协助 用 户 解决 在 商务 活动 中 所 过 到 的 
复杂 问题 ,从 而 帮助 企业 决策 者 面 对 商 业 环 境 的 快速 变化 做 出 敏捷 的 反应 和 更 好 、 更 合理 的 
商业 决策 的 系统 。 

商务 智能 系统 是 一 种 整合 系统 。 它 运用 数据 仓库 、 联 机 分 析 和 数据 挖掘 技术 来 处 理 和 
分 析 商 业 数 据 。 它 能 从 不 同 的 数据 源 搜集 的 数据 中 提取 有 用 的 数据 ,并 对 这 些 数据 进行 清 
洗 与 整理 ,以 确保 数据 的 正确 性 。 然 后 对 数据 进行 转换 、 重 构 等 操作 ,并 将 其 存 信 数据 仓库 
或 数据 集 市 中 。 同 时 运用 合适 的 查询 分析、 数据 挖掘 、\OLAP 等 管理 分 析 工 具 对 信息 进行 
处 理 , 使 信息 变 为 辅助 决策 的 知识 ,并 将 知识 以 适当 的 方式 展示 在 决策 者 面前 , 供 决策 者 使 
用 。 商 务 智能 系统 有 助 于 提高 企业 工作 效率 ,建立 有 利 的 客户 关系 ,增加 产品 的 销售 ,帮助 
企业 从 现 有 的 “ 知 本 ”中 提炼 更 多 的 价值 。 


1.5.1 商务 智能 系统 框架 


商务 智能 涉及 一 个 很 宽 的 领域 , 集 收集 、 合 并、 分 析 、 提 供 信息 存 取 功 能 于 一 体 , 包 括 抽 
取 、 转 换 、 装 载 软件 工具 数据 仓库 .数据 查询 和 报告 .联机 数据 分 析 ,数据 挖掘 和 可 视 化 等 工 
具 , 能 够 在 线 分 析 和 挖掘 知识 ,为 决策 者 提供 特定 的 决策 解决 方案 。 

从 商务 智能 系统 内 数据 流程 可 以 看 出 ,商务 智能 系统 框架 通常 由 数据 源 层 、 数 据 获 取 
层 , 数 据 存储 层 ,数据 分 析 层 和 信息 展示 层 组 成 (如 图 1-3 所 示 )。 

数据 源 层 ,也 称 作 操作 性 数据 层 , 是 整个 数据 仓库 的 基础 ,也 是 商业 智能 的 基础 ,包括 企 
业内 部 的 信息 和 外 部 信息 。 内 部 信息 主要 来 自 经 营 过 程 中 产生 的 各 种 业务 数据 ,如 ERP、 
SCM 中 产生 的 信息 。 外 部 信息 主要 指 企业 收 集 的 来 自 网 络 、. 行 业 期 刊 等 有 关 市 场 、 竞 争 对 
手 情况 的 信息 。 这 些 数 据 可 以 是 结构 化 的 ,也 可 以 是 非 结构 化 的 。 


信息 展示 层 人。 信息 门户 显示 板 

数据 分 析 层 i AE 央 
二 二 二 

数据 存储 层 数据 集 市 


数据 获取 层 ETL 


二 = 
数据 源 层 外 部 数据 


图 1-3 商务 智能 系统 框架 图 


数据 获取 层 ,是 通过 ETL 技术 将 数据 转换 到 数据 仓库 中 。ETL 技术 包括 抽取 
(Extract) ,转换 (Transform) ,加载 (Load) , 它 决定 了 存储 在 数据 仓库 中 的 数据 的 质量 。 

数据 存储 层 , 是 按 主题 分 析 和 对 相关 数据 进行 挖掘 的 数据 源 ,包括 每 一 个 按 主题 进行 分 
类 的 数据 仓库 。 元 数据 库存 储 描述 关于 数据 仓库 中 数据 的 信息 ,便于 对 数据 发 现 . 识 别 和 组 
织 。 元 数据 是 关于 数据 的 数据 ,也 就 是 对 数据 仓库 中 的 数据 加 以 说 明 的 资料 ,主要 包括 数据 
源 的 描述 .数据 的 抽取 规则 .数据 的 转换 规则 数据 的 加 载 频 率 .数据 仓库 模型 等 。 

数据 分 析 层 ,该 层 是 数据 存储 和 前 端 分 析 工 具 的 桥梁 ,能 按照 用 户 的 要 求 设计 、 生 成 具 
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有 多 维 分 析 功 能 的 分 析 主 题 ,予以 组 织 , 以 便 进行 多 角度 .多 层次 的 分 析 , 并 发 现 趋 势 。 它 们 
响应 前 端 用 户 的 分 析 请 求 , 将 多 维 数据 传送 给 前 端的 分 析 工 具 显示 。 主 要 的 技术 包括 数据 
挖掘 和 联机 分 析 处 理 技术 。 

信息 展示 层 , 是 将 商务 智能 所 提供 的 信息 方便 、 快 捷 、 合 理 地 展示 给 用 户 。 门 户 网 站 将 
企业 的 功能 集成 在 一 起 ,为 用 户 提供 整合 服务 。 商 务 智能 产生 的 信息 是 通过 商务 智能 显示 
板 发 送 到 业务 使 用 者 空间 的 。 商 务 智 能 显示 板 提供 了 获得 底层 商务 智能 工具 和 应 用 的 接 
口 。 它 的 目的 就 是 对 外 掩盖 商务 智能 环境 的 复杂 性 。 


1.5.2 商务 智能 系统 的 数据 流程 


商务 智能 的 实现 过 程 也 就 是 数据 的 存储 与 流动 过 程 , 商 务 智能 系统 的 数据 流程 有 以 下 
几 个 部 分 (如 图 1-4 所 示 )。 


外 部 数据 库 


数据 获取 
1 
国 数据 分 析 人 屿 


数据 仓库 指标 体系 决策 者 


图 1-4 商务 智能 数据 流程 


1. 数据 获取 

数据 获取 即 源 数据 采集 ,筛选 .整理 ,转换 及 存储 。 数 据 可 以 来 源 于 有 具体 的 业务 数据 库 ， 
但 也 可 以 是 文件 或 ERP、CR141、SCM 等 相关 信息 系统 。 数 据 整理 主要 指 采集 原始 数据 并 
审核 其 准确 性 , 校 验 业 务 数据 的 合法 性 ,传输 数据 ,制定 提取 和 转换 与 加 载 的 策略 等 。 数 据 
转换 是 指 按照 转换 与 加 载 策略 将 数据 转换 成 一 定 的 格式 。 数 据 存 储 是 将 整合 的 数据 按照 数 
据 仓库 的 要 求 载 人 数据 仓库 服务 器 。 

2. 数据 管理 

数据 管理 主要 负责 数据 仓库 的 内 部 维护 和 管理 , 它 涵盖 了 数据 存储 的 组 织 、 数 据 的 维 
护 、 数 据 的 分 发 .数据 安全 、 数 据 提取 .数据 清洗 ,数据 转换 等 ,通过 数据 管理 实现 数据 的 提 
取 、 净 化 .过 滤 及 数据 标准 化 等 。 

3. 数据 分 析 

数据 分 析 是 体现 系统 智能 的 关键 ,这 个 阶段 是 实现 商务 智能 系统 真正 智能 化 的 阶段 , 主 
要 利用 联机 分 析 处 理 和 数据 挖掘 技术 。 该 阶段 能 按照 用 户 的 要 求 设计 、 生 成 具有 多 维 分 析 
功能 的 分 析 主 题 ,对 从 数据 仓库 中 提取 的 数据 进行 汇总 和 多 维 分 析 ,挖掘 出 数据 背后 隐藏 的 
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知识 。 

4. 信息 展现 

信息 展现 是 将 以 上 数据 分 析 所 得 到 的 决策 知识 展现 在 用 户 或 者 是 企业 管理 者 面前 , 支 
持 管 理 和 决策 。 信 息 展 现 的 主要 方式 有 以 下 几 种 。 

(1) 查询 。 包 括 定 义 查询 ,动态 查询 .OLAP 查询 与 决策 支持 智能 查询 。 

(2) 报表 。 包 括 产生 关系 数据 表格 复杂 表格 `.OLAP 表格 、 报 告 以 及 各 种 综合 报表 。 

(3) 可 视 化 。 它 用 易于 理解 的 点 线 图 、 直 方 图 、 饼 图 、 网 状 图 、 交 互 式 可 视 化 之 动态 模 
拟 、 计 算 机 动画 技术 表现 复杂 数据 及 其 相互 关系 。 

(4) 统计 。 进 行 平均 值 . 最 大 值 . 最 小 值 . 期 望 方差. 汇 总、 排序 等 各 种 统计 分 析 。 

(5) 挖掘 。 利 用 数据 挖掘 等 方法 ,从 数据 中 得 到 关于 数据 关系 和 模式 的 知识 。 


1.6 主流 商务 智能 产品 


目前 市 场 上 的 商务 智能 厂商 大 致 可 以 分 为 三 大 类 : 第 一 类 是 专门 做 商务 智能 软件 的 厂 
商 ,如 Business Object、Brio、Cognos; 第 二 类 是 继承 性 的 数据 库 厂商 和 统计 软件 厂商 ,包括 
NCR、Microsoft、CA ,Oracle、Sybase、IBM、SAS、Hyperion 等 ; 第 三 类 是 依附 不 同 的 管理 软 
件 的 厂商 ,如 SAP、 博 科 、 用 友 、 金 蝶 等 公司 。 


1.6.1 主流 商务 智能 产品 简介 


在 全 球 商务 智能 行业 中 ,BO(Business Objects) 始 终 处 于 领导 地 位 , 自 1990 年 成 立 以 来 
就 一 直 致 力 于 报表 、 查 询 和 各 种 分 析 工 具 的 研发 ,其 水 晶 报表 是 国际 报表 工具 的 标准 。 从 
2006 年 开始 采用 研发 和 收购 并 行 的 策略 着 力 打 造 自己 的 ETL 工具 和 企业 信息 管理 
(EIM) ,其 友好 的 前 端 展 现 及 微软 的 Office 集成 使 得 BI 平民 化 成 为 现实 。 所 以 ,以 前 人 们 
都 将 它 定位 为 展现 工具 。 

成 立 于 1977 年 的 Oracle 公司 是 世界 领先 的 信息 管理 软件 开发 商 和 全 球 最 大 的 数据 库 
供应 商 , 因 其 复杂 的 关系 数据 库 产品 而 闻名 ,是 数据 库 行 业 的 标准 。 其 关系 数据 库 是 世界 上 
第 一 个 支持 SQL 的 数据 库 。Oracle 在 应 用 软件 方面 有 较 强 的 优势 ,其 软件 强调 灵活 性 。 它 
曾 研发 出 自己 的 商务 智能 工具 ,包括 数据 仓库 .报表 和 分 析 工 具 , 但 是 一 直 没 有 被 广泛 地 使 
用 ,直到 2005 年 收购 了 全 球 最 大 的 客户 关系 管理 软件 厂商 Siebel 以 后 ,将 Siebel Analytics 
合并 到 了 Oracle 的 旗舰 BI 产品 BIEE 中 。 

Cognos 是 一 家 数据 展现 的 公司 ,成 立 于 1969 年 。2005 年 11 月 ,Cognos 8.0 发 布 , 极 
大 地 改善 了 产品 的 整合 能 力 ,一 个 整合 的 BI 套件 初步 形成 。 在 查询 和 分 析 方 面 ,Cognos 和 
BO 各 有 优势 ,一直 处 于 相互 竞争 的 状态 ,但 是 在 报表 工具 方面 ,BO 远 远 地 超过 了 Cognos， 
始终 处 于 领先 地 位 。 

SAS 成 立 于 1976 年 ,以 统计 分 析 起 家 ,SAS 系统 在 国际 上 已 被 誉 为 统计 分 析 的 标准 软 
件 , 在 各 个 领域 得 到 广泛 应 用 。SAS 是 一 个 模块 化 、 集 成 化 的 大 型 应 用 软件 系统 ,由 数 十 个 
专用 模块 构成 ,功能 包括 数据 访问 、 数 据 存储 及 管理 ,应 用 开发 .图 形 处 理 、 数 据 分 析 、 报 告 编 
制 . 运 筹 学 方法 、 计 量 经 济 学 与 预测 等 。SAS 在 数据 仓库 和 OLAP Server 方面 也 有 自己 的 
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产品 ,功能 包括 数据 迁移 .数据 管理 .数据 分 析 和 数据 展现 。 最 近 几 年 ,SAS 正 逐 步 由 一 个 
工具 供应 商 向 解决 方案 供应 商 转化 。 

Hyperion 公司 成 立 于 1977 年 ,开始 其 主要 业务 范围 是 财务 预算 和 财务 合并 报表 , 它 的 
OLAP Server 在 业界 堪 称 最 优 ,一 直 处 于 领先 地 位 ,但 只 是 在 收购 了 Brio 后 , 才 使 得 它 跻 身 
于 BI 行列 。 

SAP 成 立 于 1972 年 ,是 全 球 最 大 的 企业 管理 和 协同 化 电子 解决 方案 供应 商 、 全 球 第 三 
大 独立 软件 供应 商 和 全 球 最 大 的 ERP 软件 供应 商 , 是 全 球 ERP 软件 的 标准 ,其 产品 强调 最 
大 实践 和 管理 理念 ,在 ERP 之 上 有 自己 较 强 的 分 析 和 展现 工具 。 近 几 年 SAP 在 商务 智能 
方面 也 进行 了 大 量 的 投入 ,特别 是 在 DW 产品 的 研发 方面 。 

微软 除了 Excel 外 ,这 几 年 在 商务 智能 方面 的 投入 也 在 逐渐 加 大 。 首 先 , Microsoft 
Business Intelligence 提供 了 一 个 完整 的 、 集 成 的 .可 完全 伸缩 的 BI 解决 方案 ,该 解决 方案 
可 以 对 企业 的 整个 机 构 提 供 支持 ; 其 次 ,通过 与 Microsoft Office 2007 系统 的 集成 ， 
Microsoft Business Intelligence 提供 了 一 个 熟悉 的 环境 ,在 这 个 环境 中 ,可 以 将 信息 直接 传 
弟 到 用 户 工作 、 协 作 和 决策 的 地 方 ; 再 次 ,通过 与 SQL Server 2005 商务 智能 平台 的 紧密 集 
成 ,能 够 为 任何 规模 的 组 织 机 构 和 各 个 阶层 的 工作 人 员 部 署 和 使 用 商务 智能 提供 支持 ,以 完 
整 的 数据 为 基础 ,用 户 可 以 获得 所 需 的 工具 和 资源 ,从 而 做 出 更 好 、 更 快 的 决策 ; 最 后 ， 
Microsoft Business Intelligence 技术 通过 使 用 功能 强大 的 最 终 用 户 报表 和 分 析 工 具 , 极 大 
地 提高 了 企业 的 战略 决策 能 力 和 经 营 效 率 。 


1.6.2 商务 智能 的 抉择 


由 于 商务 智能 厂商 的 并 购 和 各 大 厂商 的 宣传 ,使 得 客户 对 商务 智能 厂商 和 解决 方案 的 
选择 更 加 困难 了 。 几 大 商务 智能 厂商 都 在 向 用 户 承诺 :“ 为 了 商务 智能 和 数据 管理 ,需要 一 
个 整体 的 架构 吗 ? 我 们 已 经 有 了 这 样 的 平台 和 架构 。 想 要 给 成 千 上 万 的 员工 提供 商务 智能 
的 能 力 吗 ? 我 们 可 以 帮助 实现 ,” 几 家 公司 都 希望 用 户 最 终 能 够 接受 他 们 商务 智能 的 理念 并 
选择 使 用 其 平台 。 所 以 了 解 这 几 家 的 战略 , 认 清 他 们 的 策略 和 定位 ,可 以 帮助 用 户 做 出 更 好 
的 决策 或 者 行动 。 

目前 , 几 大 商务 智能 厂商 正在 将 传统 商务 智能 工具 (查询 .报告 和 仪表 盘 ) 和 他 们 销售 的 
其 他 软件 诸如 数据 库 .中 间 件 .ERP 企业 应 用 和 协同 软件 整合 起 来 。 同 时 ,他 们 承诺 继续 研 
发 和 支持 可 以 和 竞争 对 手软 件 进行 整合 的 商务 智能 工具 。 然 而 从 长 远 角度 看 ,厂商 的 研发 
队伍 一 定 会 将 收购 的 产品 和 他 们 的 主流 产品 整合 起 来 。 所 有 BI 厂商 都 希望 用 户 去 购买 他 
们 自己 的 数据 库 和 商务 智能 工具 ,但 这 样 势必 会 太 多 地 依赖 于 一 家 的 产品 。 究 竟 如 何 更 好 
地 选择 创建 满足 企业 自己 业务 需求 的 商务 智能 软件 ,更 多 地 要 依赖 于 企业 现在 所 处 的 环境 
和 将 来 的 发 展 方向 。 所 以 ,了 解 几 大 厂商 产品 的 功能 和 特点 是 实施 商务 智能 战略 所 必需 的 。 

具有 数据 库 的 商务 智能 厂商 可 以 帮助 将 片段 的 商务 智能 合并 成 统一 支持 企业 级 的 商务 
智能 项 目 ,使 得 维护 和 管理 的 平台 尽量 少 ,减少 成 本 和 技术 维护 。SAP 希望 将 BI 和 它 的 
ERP 绑 定 起 来 。 只 有 SAS 是 一 个 完整 的 商务 智能 产品 独立 供应 商 , 但 是 他 们 和 希望 企业 购 
买 整体 的 端 对 端的 方案 。 如 果 各 种 主要 的 应 用 来 自 于 数据 库 ,Oracle 或 者 IBM 可 能 是 最 好 
的 选择 ; 如 果 和 希望 用 户 利 用 更 多 的 方法 和 灵活 的 手段 来 分 析 像 ERP 这 样 的 交易 数据 , 则 
SAP 更 适合 ; 如 果 CFO(Chief Financial Officer, 财务 总 监 ) 是 主要 的 用 户 , 那 么 SAP 和 
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Oracle 是 最 强 的 ; 如 果 你 的 数据 来 源 于 多 个 数据 源 和 一 些 像 IBM 或 者 HP 的 大 型 机 器 ,使 
用 的 客户 群 是 分 析 人 员 和 统计 专家 ,提供 对 外 的 统计 结果 ,那么 SAS 是 最 好 的 选择 。 考 虑 
数据 质量 和 数据 管理 吗 ? SAP 和 IBM 是 这 方面 的 专家 。 如 果 你 希望 BI 成 为 大 部 分 员工 的 
简易 利用 工具 ,SAP 的 水 晶 仪 表 是 很 好 的 工具 ; 如 果 你 的 平台 全 部 选择 了 微软 ,那么 微软 可 
能 是 你 的 最 佳 选择 。 

不 管 你 是 选择 这 几 家 最 大 的 BI 厂商 的 产品 ,还 是 利用 独立 BI 厂商 的 产品 ,那么 采用 一 
个 标准 的 商务 智能 平台 是 非常 必要 的 。 所 有 这 几 家 厂商 都 已 经 谈论 他 们 的 工具 可 以 提供 给 
更 多 的 用 户 , 但 是 SAP、SAS、Oracle 和 IBM 的 产品 相对 于 开源 供应 商 的 产品 而 言 价格 是 比 
较 高 的 ,微软 的 产品 相对 比较 便宜 。 

当然 ,商务 智能 如 ERP 一 样 ,实施 中 存在 一 定 的 风险 ,企业 首先 要 认 清 自身 的 需求 情 
况 ,在 选择 合作 伙伴 的 同时 也 要 进行 充分 的 了 解 。 各 主流 厂商 都 有 各 自 的 优势 ,比如 SAS 
的 数据 挖掘 .Hyperion 的 预算 与 报表 合并 、BO 的 数据 分 析 与 报告 等 。 商 务 智能 产品 的 发 展 
趋势 必 将 是 整合 平台 基础 上 的 集成 化 应 用 。 如 何 切实 了 解 自身 需求 .选择 具有 优势 的 厂商 
产品 ,将 是 企业 实施 商务 智能 成 功 的 关键 。 


1.7 商务 智能 的 未 来 发 展 趋势 


商务 智能 的 发 展 趋势 可 以 归纳 为 以 下 几 点 。 

(1) 具有 可 配置 性 、 灵 活性 、 可 变化 的 功能 。 商 务 智能 系统 的 范围 从 为 部 门 的 特定 用 户 
服务 扩展 到 为 整个 企业 所 有 用 户 服务 。 同 时 ,由 于 企业 用 户 在 职权 、 需 求 上 的 差异 ,商务 智 
能 系统 提供 广泛 的 .具有 针对 性 的 功能 。 从 简单 的 数据 获取 ,到 利用 Web 和 局 域 网 ,广域网 
进行 丰富 的 交互 ,决策 信息 和 知识 的 分 析 和 使 用 。 

(2) 解决 方案 更 开放 、 可 扩展 、 可 按 用 户 定制 ,在 保证 核心 技术 的 同时 ,提供 客户 化 的 界 
面 。 针 对 不 同 企业 的 独特 需求 ,商务 智能 系统 在 提供 核心 技术 的 同时 ,使 系统 又 具 个 性 化 ， 
即 在 原 有 方案 基础 上 加 入 自己 的 代码 和 解决 方案 ,增强 客户 化 的 接口 和 扩展 特性 ; 可 为 企 
业 提供 基于 商务 智能 平台 的 定制 工具 ,使 系统 具有 更 大 的 灵活 性 和 使 用 范围 。 

(3) 从 单独 的 商务 智能 向 嵌入 式 商务 智能 发 展 。 这 是 目前 商务 智能 应 用 的 一 大 趋势 ， 
即 在 企业 现 有 的 应 用 系统 中 ,如 财务 人力、 销售 等 系统 中 嵌入 商务 智能 组 件 ,使 普遍 意义 上 
的 事物 处 理 系统 具有 商务 智能 的 特性 。 考 虑 商务 智能 系统 的 某 个 组 件 而 不 是 整个 商务 智能 
系统 并 非 一 件 简单 的 事 , 如 将 联机 分 析 处 理 技术 应 用 到 某 一 个 应 用 系统 ,一 个 相对 完整 的 商 
务 智 能 开发 过 程 , 如 企业 问题 分 析 、 方 案 设 计 、 原 型 系统 开发 .系统 应 用 等 过 程 是 不 可 缺 
少 的 


(4) 从 传统 功能 向 增强 型 功能 转变 。 增 强 型 的 商务 智能 功能 是 相对 于 早期 用 SQL 工 
具 实现 查询 的 商务 智能 功能 。 目 前 应 用 中 的 商务 智能 系统 除 实现 传统 的 商务 智能 系统 功能 
之 外 ,大 多 数 已 实现 了 数据 分 析 层 的 功能 。 而 数据 挖掘 .企业 建 模 是 商务 智能 系统 应 该 加 强 
的 应 用 ,以 更 好 地 提高 系统 性 能 。 

有 关 专 家 指出 , 随 着 互联 网 的 普及 ,在 决策 支持 系统 基础 上 发 展商 务 智能 已 成 为 必然 。 
随 着 基于 互联 网 的 各 种 信息 系统 在 企业 中 的 应 用 ,企业 将 越 来 越 多 地 关注 客户 、 产 品 及 销售 
情况 在 内 的 各 种 信息 ,这些 信息 能 帮助 企业 更 好 地 预测 和 把 握 未 来 。 所 以 ,电子 商务 的 发 展 


也 推动 了 商务 智能 的 进一步 应 用 。 

从 行业 发 展 来 看 ,商务 智能 作为 业务 驱动 的 决策 支持 系统 ,其 发 展 是 以 较为 完善 的 企业 
的 信息 系统 和 稳定 的 业务 系统 为 基础 的 。 商 务 智 能 未 来 的 应 用 与 行业 内 信息 化 的 基础 状况 
密切 相关 ,以 制造 型 企业 为 主 ,其 次 是 流通 企业 ,这 两 个 领域 将 是 商务 智能 不 可 忽视 的 新 
市 场 。 

在 企业 应 用 领域 ,商务 智能 成 为 继 ERP 之 后 的 高 端 应 用 ,广阔 的 市 场 前 景 促进 管理 软 
件 提供 商 看 好 这 块 领域 。 据 估计 ,商务 智能 每 年 大 约 有 500 亿美 元 的 市 场 规模 ,其 中 包括 数 
据 抽取 、 中 间 件 .数据 分 析 工 具 以 及 数据 仓库 服务 器 等 相关 产品 ,市 场 前 景 美 好 。 


1.8 商务 智能 的 应 用 


商务 智能 的 最 大 特点 是 能 从 庞大 而 又 繁杂 的 业务 数据 中 提炼 出 有 规律 的 信息 、 知 识 , 以 
便于 决策 者 针对 这 些 市 场 信息 和 商业 情报 做 出 准确 的 市 场 判断 ,制定 合理 的 商业 行为 规范 。 
因此 ,BI 最 适合 在 有 海量 数据 的 行业 中 大 力 推广 与 应 用 。 

商务 智能 可 以 帮助 企业 完成 如 下 工作 。 

(1) 提高 销售 预测 的 准确 性 (Accuracy) 和 实效 性 (Timeliness) 。 

(2) 通过 把 顾客 数据 转换 成 个 性 化 的 智能 来 增加 顾客 满意 度 和 忠诚 度 。 

(3) 有 效 收集 相关 商务 信息 (财政 .库存 采购) ,以 降低 运营 成 本 。 

(4) 实时 处 理 大 量 复 杂 的 数据 分 析 问题 。 

(5) 提高 风险 管理 能 力 ,分 析 预 测 客户 的 欺诈 .违约 行为 。 

(6) 市 场 营销 策略 分 析 ,利用 数据 仓库 技术 实现 市 场 营销 策略 在 模型 上 的 仿真 。 

由 此 可 见 , 商 务 智 能 适合 电信 ,银行 证券、 保险 、 航 空 ,石化 及 卫生 等 行业 ,其 特点 主要 
有 如 下 几 项 。 

(1) 企业 规模 较 大 。 这 些 行业 中 的 企业 往往 是 航母 型 的 ,企业 运营 资本 高 .员工 多 ,有 
众多 的 子 公司 分 布 在 不 同 地 区 ,甚至 不 同 国家 ,每 日 产生 的 业务 数据 和 往来 数据 量 大 、 多 、 
杂 , 员 工 变动 和 绩效 管理 非常 重要 。 

(2) 客户 数量 众多 。 这 些 行业 企业 客户 数量 基数 大 ,每 日 新 增 客户 与 流失 客户 也 多 , 稳 
定 客户 与 流失 客户 的 判断 对 于 企业 经 营 非常 重要 。 

(3) 较 长 的 产品 链 。 这 些 行业 牵涉 的 上 下 游 产业 链 长 ,每 日 急剧 变动 的 业务 数据 、 财 务 
数据 、 客 户 数据 等 对 于 产业 链 的 影响 大 。 

(4) 巨大 的 市 场 规模 。 这 些 行业 的 销售 额 高 ,用 户 群 大 ,用 户 争夺 激烈 ,现金 流量 的 波 
动 对 于 企业 发 展 非常 重要 。 

(5) 海量 的 数据 信息 。 这 些 行业 产生 的 信息 量 大 ,增长 快 ,信息 更 新 换代 频繁 ,实效 性 
强 , 信 息 对 企业 营运 影响 力 大 ,有 时 甚至 是 企业 的 生命 线 。 

此 外 ,一些 政府 管理 部 门 ,如 军工 公安 .工商 财税、 统计 .社保 . 计 委 及 经 贸 委 等 具有 大 
量 的 信息 数据 ,有 些 信息 甚至 关系 到 国计民生 ,信息 的 保密 性 要 求 高 ,比较 适合 应 用 商务 智 
能 方法 来 处 理 问题 。 

商务 智能 支持 企业 内 各 种 角色 的 应 用 ,战略 决策 层 将 通过 建立 战略 企业 管理 模式 的 商 
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务 智能 系统 来 实时 了 解 企业 对 战略 目标 的 执行 程度 ; 中 ,高 层 管理 人 员 通 过 建立 运营 智能 
系统 来 随时 了 解 企业 运行 情况 ; 企业 分 析 研 究 人 员 则 可 通过 商务 智能 分 析 工 具 对 企业 现状 
进行 分 析 , 向 高 层 领导 提供 分 析 结 果 , 支 持 决策 。 概 括 起 来 在 企业 的 应 用 系统 中 ,商务 智能 
的 应 用 主要 体现 在 以 下 几 个 方面 。 

(1) 简单 的 报告 和 咨询 。 商 务 智 能 是 把 数据 进行 粗 加 工 , 并 使 管理 人 员 获 得 有 用 的 信 
息 。 如 去 年 某 产品 的 销售 量 是 多 少 ? 我 们 拥有 多 少 客户 ? 用户 向 系统 提出 的 问题 是 “告诉 
我 发 生 了 什么 ”。 

(2) 在 线 分 析 处 理 (OLAP)。 商 务 智 能 的 在 线 分 析 工 具 能 够 让 用 户 有 效 分 析 信 息 , 创 
造 有 价值 的 结果 。 比 如 ,我们 的 产品 在 哪个 国家 获得 了 最 大 的 成 功 ? 哪 部 分 顾客 购买 了 绝 
大 部 分 的 产品 ? 不 仅 要 问 发 生 了 什么 ,还 要 问 为 什么 会 发 生 。 

(3) 高 级 管理 人 员 信 息 系统 (EIS) 。 建 立 供 高 级 管理 人 员 使 用 的 信息 系统 ,可 以 使 信息 
以 容易 使 用 的 形式 出 现 , 比 如 说 以 一 些 主要 的 业务 指标 的 形式 出 现 。 用 户 和 希望 能 够 在 不 太 
费力 的 情况 下 ,从 系统 中 获取 大 多 数 管理 信息 。 

(4) 数据 挖掘 。 通 过 对 现 有 数据 的 挖掘 和 运行 统计 方法 ,可 以 详细 展现 未 来 的 景象 。 
比如 说 ,通过 利用 商务 智能 工具 ,能 够 预测 哪 种 客户 最 有 可 能 购买 新 产品 。 市 场 营销 战略 由 
此 可 以 集中 在 有 限 的 一 部 分 客户 中 。 企 业 的 市 场 营销 战略 由 此 也 更 为 有 效 , 成 本 也 可 以 降 
低 。 在 这 种 情况 下 ,我 们 的 问题 就 是 : 告诉 我 未 来 会 发 生 什么 。 

(5) 互联 网 络 。 商 务 智能 平台 并 不 仅 局 限 在 企业 内 部 ,而 是 可 以 扩展 到 国际 的 范围 , 通 
过 Internet, 可 以 管理 国际 化 企业 部 门 和 分 支部 门 ,同时 也 让 更 多 的 国际 用 户 来 共享 信息 。 

因此 ,又 可 以 将 商务 智能 的 应 用 概括 为 以 下 两 大 类 。 

(1) 信息 类 BI 应 用 。 主 要 有 数据 查询 ,报表 图 表 和 多 维 分 析 。 这 类 应 用 的 主要 特点 是 
仅 负责 提供 信息 ,而 不 会 主动 去 分 析 数 据 。 

(2) 知识 类 BI 应 用 。 主 要 有 数据 挖掘 ,这 类 应 用 的 主要 特点 是 主动 探查 .分 析 数 据 间 
的 关联 关系 。 

商务 智能 的 应 用 领域 有 以 下 几 个 。 

(1) 客户 分 类 和 特点 分 析 。 根 据 客户 历年 来 的 大 量 消费 记录 以 及 客户 的 档案 资料 ,对 
客户 进行 分 类 ,并 分 析 每 类 客户 的 消费 能 力 、 消 费 习惯 .消费 周期 .需求 倾向 、 信 誉 度 ,确定 哪 
类 顾客 给 企业 带 来 最 大 的 利润 、 哪 类 顾客 仅 给 企业 带 来 最 少 的 利润 同时 又 要 求 最 多 的 回报 ， 
然后 针对 不 同类 型 的 客户 给 予 不 同 的 服务 。 实 现 扩展 和 现 有 客户 的 关系 、 控 制 营销 费用 , 快 
速 转移 市 场 的 目的 。 

(2) 市 场 营 销 策略 分 析 。 通 过 对 数据 进行 抽取 、 清 洗 、 聚 类 挖掘、 预测 等 处 理 来 产生 可 
透析 的 各 种 展示 数据 。 而 这 些 数据 可 直观 地 显示 分 析 者 所 要 探寻 的 某 种 经 营 属性 或 市 场 规 
律 ,企业 可 以 据 此 调整 和 优化 其 市 场 营 销 策略 ,使 其 获得 最 大 的 成 功 。 

(3) 经 营 成 本 与 收入 分 析 。 对 各 种 类 型 的 经 济 活 动 进行 成 本 核算 ,比较 可 能 的 业务 收 
入 与 各 种 费用 之 间 的 收 支 差额 ,分 析 经 济 活动 的 曲线 ,得 到 相应 的 改进 措施 和 办 法 ,从 而 降 
低 成 本 .减少 开支 .提高 收入 。 

(4) 风险 管理 与 分 析 。 利 用 联机 分 析 和 数据 挖 握 技术 ,总 结 各 种 骗 费 、 欠 费 行为 的 内 在 
规律 后 ,在 数据 仓库 的 基础 上 建立 一 套 欺 骗 行为 和 欠 费 行为 规划 库 , 就 可 以 及 时 预警 各 种 骗 
费 . 欠 费 , 尽 量 减少 企业 风险 和 损失 。 


第 1 章 商务 智能 概述 


从 技术 上 看 ,商务 智能 应 用 可 以 对 企业 数据 资源 进行 “三 维 分 析 ( 时 间 维 、 经 营 活动 维 、 
指标 维 )”, 通 过 上 下 钻 取 左右 拖 动 及 纵横 旋转 ,用 连续 的 立体 动态 表 来 展现 各 种 数据 ,对 这 
些 数据 进行 聚 类 ,排序 等 处 理 ,也 可 对 图 形 进 行 拉 伸 、 分 块 、 旋 转 、 透 视 等 多 种 处 理 ,以 更 直观 
可 见 的 方式 来 展现 数据 表现 的 规律 。 同 时 还 可 对 数据 做 各 种 标识 ,也 可 对 数据 进行 跟踪 
分 析 。 

商务 智能 应 用 首先 在 金融 \ 保 险 \ 证 券 . 电 信 、 税 务 等 传统 数据 密集 型 行业 取得 成 功 。 特 
别 是 在 金融 业 中 的 应 用 已 经 取得 良好 的 效果 ,国内 外 金融 机 构 在 经 营 管理 \ 战 略 决 策 、 客 户 
关系 管理 等 方面 有 巨大 的 需求 。 目 前 ,许多 优秀 的 软件 厂商 都 参与 了 商务 智能 系统 的 开发 ， 
为 企业 应 用 商务 智能 提供 了 系统 化 解决 方案 。 这 些 开发 商 包 括 数 据 库 厂商 (Sybase/ 
Oracle/DB2 等 ) ,独立 软件 厂商 (BO/CA 等 ) 和 数据 分 析 软 件 厂商 (SPSS/SAS 等 ) 三 类 ,这 
些 厂商 的 产品 各 有 侧重 。 经 过 几 年 的 发 展 和 应 用 ,目前 商务 智能 应 用 方案 已 经 十 分 成 熟 ,应 
用 效果 良好 。 

商务 智能 在 金融 业 有 广泛 的 应 用 前 景 ,主要 作用 是 提高 银行 管理 能 力 .竞争 力 和 经 营 效 
益 ; 商务 智能 具有 综合 应 用 信息 处 理 、. 加 工分 析 、 在 线 及 时 分 析 等 特点 ,可 以 辅助 管理 者 及 
时 、 有 效 地 进行 决策 ,制定 政策 。 商 务 智能 系统 将 面向 金融 企业 管理 层 , 以 数据 仓库 为 基础 ， 
整合 企业 内 部 、 外 部 及 与 业务 相关 的 所 有 重要 数据 ,通过 对 数据 进行 快速 而 准确 的 分 析 和 挖 
气 , 并 提供 全 方位 、 多 层次 的 在 线 式 辅助 分 析 报 表 及 工具 ,帮助 企业 管理 者 在 短 时 间 内 对 市 
场 变 化 及 趋势 得 出 更 好 的 战略 性 商业 决策 ; 通过 挖掘 重点 客户 需求 ,提高 服务 质量 减少 运 
作成 本 ,有 效 管理 银行 ,为 金融 企业 带 来 市 场 竞 争 优势 。 

金融 业 的 应 用 主要 是 客户 管理 .经 营 分 析 、 决 策 战略 及 智能 化 信息 服务 等 ,商务 智能 系 
统 将 全 面 整合 银行 对 公 业 务 .储蓄 .信贷 .信用卡 等 各 方面 业务 的 数据 ,形成 一 个 统一 、 全 面 
的 信息 资源 中 心 , 以 此 为 基础 ,可 以 为 各 类 用 户 提供 对 交易 明细 .业务 汇总 等 各 类 信息 的 查 
询 .分 析 和 制定 报表 ,并 发 现 经 营 事实 与 规律 ,全 面 满足 现代 商业 银行 对 决策 支持 信息 的 需 
求 。 借 助 商务 智能 的 核心 技术 ,利用 企业 中 长 期 积累 的 海量 数据 ,可 以 实现 客户 关系 管理 、 
市 场 营 销 、 成 本 控制 .风险 管理 及 战略 决策 等 方面 的 应 用 。 


小 结 


商务 智能 通常 被 理解 为 将 企业 中 现 有 的 数据 转化 为 知识 ,帮助 企业 做 出 明智 的 业务 经 
营 决 策 的 工具 。 从 技术 层面 上 讲 ,商务 智能 不 是 什么 新 技术 , 它 只 是 数据 仓库 .OLAP 和 数 
据 挖掘 等 技术 的 综合 运用 。BI 技术 提供 帮助 企业 迅速 分 析 数 据 的 技术 和 方法 ,包括 收集 、 
管理 和 分 析 数 据 ,将 这 些 数据 转化 为 有 用 的 信息 ,然后 分 发 到 企业 各 处 。 其 功能 包括 数据 管 
理 、 数 据 分 析 、 知 识 发 现 和 企业 优化 。 

BI 作为 一 种 企业 信息 集成 解决 方案 ,是 一 个 分 析 型 系统 。BI 与 其 他 系统 之 间 既 有 区 别 
又 有 联系 。 一 方面 ,BI 为 企业 不 同 的 应 用 系统 之 间架 起 了 互通 的 桥梁 ,同时 这 些 信息 化 系 
统 也 为 BI 提供 了 数据 源 。 男 一 方面 ,BI 的 价值 又 在 这 些 系统 之 上 , 它 可 以 发 现 数据 背后 隐 
藏 的 商机 或 威胁 ,洞察 企业 和 市 场 的 现状 、 把 握 趋势 识别 异常 情况 ,理解 企业 业务 的 推动 力 
量 、 认 清正 在 对 企业 的 业务 产生 影响 的 行为 及 影响 的 程度 如 何等 。 
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题 


1. 商务 智能 产生 的 原因 是 什么 ? 

2. 举例 说 明 商 务 智能 在 保险 .证券 . 银 行 \ 电 信 、 制 造 . 零 售 和 物流 等 行业 的 应 用 。 
3. 讨论 商务 智能 与 ERP、CRM 和 SCM 等 业务 管理 系统 的 关系 。 

4. 如 何 理解 商务 智能 的 发 展 趋势 ? 


第 人 音 


商务 智能 中 的 核心 技术 


从 系统 的 角度 来 看 ,商务 智能 的 过 程 起 始 于 不 同 数据 源 的 数据 收集 ,提取 有 用 的 数据 进 
行 加 工 、 处 理 以 保证 数据 的 正确 性 ,加 工 后 的 数据 经 过 转换 、 重 构 存 人 数据 仓库 成 为 实体 信 
息 , 对 这 些 实体 信息 进行 查询 ,挖掘 、. 分 析 和 评估 等 操作 ,使 其 成 为 辅助 决策 的 知识 并 呈现 在 
最 终 用 户 面前 ,转变 为 用 户 决策 。 可 以 看 出 ,企业 信息 化 是 商务 智能 应 用 的 基础 ,商务 智能 
最 大 程度 地 利用 了 企业 信息 化 中 各 应 用 系统 的 数据 ,将 企业 日 常 业务 数据 整理 为 信息 ,逐步 
升华 为 知识 ,从 而 为 决策 者 提供 最 大 力度 的 支持 。 构 建 一 个 完整 的 企业 商务 智能 系统 涉及 
的 核心 技术 有 数据 仓库 .数据 获取 、 联 机 分 析 处 理 (OLAP) 数据 挖掘 和 数据 可 视 化 。 数 据 
仓库 是 面向 主题 的 、 集 成 的 .相对 稳定 的 .连续 的 数据 集合 ,用 以 支持 经 营 管理 中 的 决策 制定 
过 程 ,是 商务 智能 的 基础 。 数 据 获取 负责 将 分 布 的 . 异 构 数据 源 中 的 数据 如 关系 数据 ,平面 
数据 文件 等 抽取 加 载 到 数据 仓库 或 数据 集 市 中 ,成 为 联机 分 析 处 理 、 数 据 挖掘 的 基础 。 联 机 
分 析 处 理 (OLAP) 是 数据 仓库 最 主要 的 应 用 ,专门 设计 用 于 支持 复杂 的 分 析 操 作 , 侧 重 对 决 
策 人 员 和 高 层 管理 人 员 的 决策 支持 ,可 以 根据 分 析 人 员 的 要 求 快速 .灵活 地 进行 大 数据 量 的 
复杂 查询 处 理 , 并 且 以 一 种 直观 而 易 懂 的 形式 将 查询 结果 提供 给 决策 人 员 ,以 便 他 们 准确 掌 
握 企业 的 经 营 状 况 , 了 解 对 象 的 需求 ,制定 正确 的 方案 。 数 据 挖掘 即 数据 库 中 的 知识 发 现 ， 
是 一 个 在 数据 中 提取 出 有 效 的 、 新 颖 的 \ 有 潜在 实用 价值 和 易于 理解 知识 模式 的 高 级 过 程 。 
数据 可 视 化 技术 能 够 使 数据 挖掘 中 发 现 知识 的 过 程 和 结果 易于 理解 ,在 发 现 知识 过 程 中 能 
够 进行 人 机 交互 ,将 大 型 集中 的 数据 以 图 形 图 像 形式 表示 。 数 据 可 视 化 是 数据 分 析 的 最 后 
环节 ,也 是 非常 关键 的 一 环 。 

本 章 主要 介绍 数据 仓库 联机 分 析 处 理 和 数据 可 视 化 ,数据 获取 与 数据 挖掘 将 在 后 续 其 
他 章节 中 详细 介绍 。 
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2.1 数据 仓库 


数据 仓库 是 实现 商务 智能 的 数据 基础 。 建 立 数据 仓库 的 目的 是 建立 一 种 体系 化 的 数据 
存储 环境 ,将 决策 分 析 所 需 的 大 量 数据 从 传统 的 操作 环境 中 分 离 出 来 ,使 分 散 .不一致 的 操 
作 数 据 转换 成 集成 、 统 一 的 信息 ,为 用 户 提供 查询 和 决策 分 析 的 依据 。 


2.1.1 数据 仓库 的 产生 与 发 展 


1. 萌芽 阶段 

数据 仓库 的 概念 最 早 可 追溯 到 20 世纪 70 年 代 ,MIT 的 研究 员 致 力 于 研究 一 种 优化 的 
技术 架构 ,该 架构 试图 将 业务 处 理 系统 和 分 析 系 统 分 开 , 即 将 业务 处 理 和 分 析 处 理 分 为 不 同 
层次 ,针对 各 自 的 特点 采取 不 同 的 架构 设计 原则 。MIT 的 研究 员 认 为 这 两 种 信息 处 理 的 方 
式 具 有 显著 差别 ,以 至 于 必须 采取 完全 不 同 的 架构 和 设计 方法 。 但 受 限 于 当时 的 信息 处 理 
能 力 , 这 个 研究 仅 停留 在 理论 层面 。 

2. 探索 阶段 

20 世纪 80 年 代 中 后 期 ,DEC 公司 结合 MIT 的 研究 结论 ,建立 了 TA2(Technical 
Architecture 2) 规 范 ,该 规范 定义 了 分 析 系 统 的 4 个 组 成 部 分 : 数据 捕获 .数据 访问 .目录 和 
用 户 服务 。 这 是 系统 架构 的 一 次 重大 转变 ,第 一 次 明确 提出 分 析 系 统 架 构 并 将 其 运用 于 
实践 。 

3. 雏形 阶段 

1988 年 ,为 解决 全 企业 集成 问题 , IBM 公司 第 一 次 提出 了 信息 仓库 (Information 
Warehouse) 的 概念 ,并 称 之 为 VITAL (Virtually Integrated Technical Architecture 
Lifecycle)。VITAL 定义 了 85 种 信息 仓库 组 件 , 包 括 PC、 图 形 化 界面 、 面 向 对 象 的 组 件 以 
及 局 域 网 等 。 至 此 ,数据 仓库 的 基本 原理 ,技术 架构 以 及 分 析 系 统 的 主要 原则 都 已 确定 , 数 
据 仓 库 初 具 锥 形 。 

4. 确立 阶段 

1991 年 ,Bill Inmon( 比 尔 。， 恩 门 ) 出 版 了 他 的 第 一 本 关于 数据 仓库 的 书 Building the 
Data Warehouse ,标志 着 数据 仓库 概念 的 确立 。 该 书 指出 ,数据 仓库 (Data Warehouse) 是 一 
个 面向 主题 的 (Subject Oriented)、 集 成 的 (Integrated) 、 相 对 稳定 的 (Non-Volatile) ,反映 历 
史 变 化 的 (Time Variant) 数 据 集合 ,用 于 支持 管理 决策 (Decision-Making Support)。 该 书 
还 提供 了 建立 数据 仓库 的 指导 意见 和 基本 原则 ,凭借 这 本 书 .Bill Inmon 被 称 为 数据 仓库 
之 父 。 


2.1.2 数据 仓库 的 概念 与 特征 


目前 比较 通用 的 对 数据 仓库 的 定义 是 Bill Inmon 在 1991 年 提出 的 ,他 对 数据 仓库 的 定 
义 被 大 多 数学 者 和 工程 人 员 所 接受 : 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 .相对 稳定 的 、 
反映 历史 变化 的 数据 集合 ,用 于 支持 管理 决策 。 对 于 数据 仓库 的 概念 可 以 从 两 个 层次 也 
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以 理解 : 首先 ,数据 仓库 用 于 支持 决策 ,面向 分 析 型 数据 处 理 , 它 不 同 于 企业 现 有 的 操作 型 
数据 库 ; 其 次 ,数据 仓库 是 对 多 个 异 构 的 数据 源 有 效 集成 ,集成 后 按照 主题 进行 了 重组 ,并 
包含 历史 数据 ,而 且 存 放 在 数据 仓库 中 的 数据 一 般 不 再 修改 。 因 此 数据 仓库 具有 如 下 特征 。 

1. 面向 主题 

操作 型 数据 库 的 数据 组 织 面向 事务 处 理 任务 ,各 个 业务 系统 之 间 各 自分 离 ,而 数据 仓库 
中 的 数据 是 按照 一 定 的 主题 域 进行 组 织 。 主 题 是 一 个 抽象 的 概念 ,是 指 用 户 使 用 数据 仓库 
进行 决策 时 所 关心 的 重点 方面 ,一 个 主题 通常 与 多 个 操作 型 信息 系统 相关 。 

2. 集成 的 

面向 事务 处 理 的 操作 型 数据 库 通 常 与 某 些 特定 的 应 用 相关 ,数据 库 之 间 相互 独立 ,并 且 
往往 是 异 构 的 。 而 数据 仓库 中 的 数据 是 在 对 原 有 分 散 的 数据 库 数据 抽取 、 清 理 的 基础 上 经 
过 系统 加 工 \、 汇 总 和 整理 得 到 的 ,必须 消除 元 数据 中 的 不 一 致 性 ,以 保证 数据 仓库 内 的 信息 
是 关于 整个 企业 的 一 致 的 全 局 信息 。 

3. 相对 稳定 的 

操作 型 数据 库 中 的 数据 通常 实时 更 新 ,数据 根据 需要 及 时 发 生变 化 。 数 据 仓库 的 数据 
主要 供 企业 决策 分 析 之 用 ,所 涉及 的 数据 操作 主要 是 数据 查询 ,一旦 某 个 数据 进入 数据 仓库 
以 后 ,一般 情况 下 将 被 长 期 保留 ,也 就 是 数据 仓库 中 一 般 有 大 量 的 查询 操作 ,但 修改 和 删除 
操作 很 少 ,通常 只 需要 定期 地 加 载 、 刷 新 。 

4. 反映 历史 变化 

操作 型 数据 库 主要 关心 当前 某 一 个 时 间 段 内 的 数据 ,而 数据 仓库 中 的 数据 通常 包含 历 
史 信 息 , 系 统 记 录 了 企业 从 过 去 某 一 时 点 (如 开始 应 用 数据 仓库 的 时 点 ) 到 目前 的 各 个 阶段 
的 信息 ,通过 这 些 信息 ,可 以 对 企业 的 发 展 历程 和 未 来 趋势 做 出 定量 分 析 和 预测 。 

企业 数据 仓库 的 建设 ,是 以 现 有 企业 业务 系统 和 大 量 业 务 数据 的 积累 为 基础 。 数 据 仓 
库 不 是 静态 的 概念 ,只 有 把 信息 及 时 交 给 需要 这 些 信息 的 使 用 者 , 供 他 们 做 出 改善 其 业务 经 
营 的 决策 ,信息 才能 发 挥 作用 ,信息 才 有 意义 。 而 把 信息 加 以 整理 归纳 和 重组 ,并 及 时 提供 
给 相应 的 管理 决策 人 员 ,是 数据 仓库 的 根本 任务 。 因 此 ,从 产业 界 的 角度 看 ,数据 仓库 建设 
是 一 个 工程 ,也 是 一 个 过 程 。 


2.1.3 ETL 


目前 ,大 多 数 企业 花费 大 量 的 资金 和 时 间 来 构建 联机 事务 处 理 OLTP 的 业务 系统 和 办 
公 自 动 化 系统 ,用 来 记录 事务 处 理 的 各 种 相关 数据 。 据 统计 ,数据 量 每 两 三 年 时 间 就 会 成 倍 
增长 ,这 些 数 据 蕴含 着 巨大 的 商业 价值 ,而 企业 所 关注 的 通常 只 占 总 数据 量 的 2 中 一 4 史 。 
因此 ,企业 仍然 没有 最 大 化 地 利用 已 存在 的 数据 资源 ,以 至 于 浪费 了 更 多 的 时 间 和 资金 ,也 
失去 了 制定 关键 商业 决策 的 最 佳 契 机 。 于 是 .企业 如 何 通过 各 种 技术 手段 ,并 把 数据 转换 为 
信息 、 知 识 , 已 经 成 为 提高 其 核心 竞争 力 的 主要 瓶颈 。 而 ETL 则 是 一 个 主要 的 技术 手段 。 
1. ETL 的 定义 


ETL 分 别 是 Extract、Transform、Load 三 个 单词 的 首 字母 缩写 ,也 就 是 抽取 转换 、 装 
载 , 但 我 们 日 常 往往 简称 其 为 数据 抽取 。ETL 是 BIDW( 商 务 智能 /数据 仓库 ) 的 核心 和 灵 
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现 ,按照 统一 的 规则 集成 并 提高 数据 的 价值 ,是 负责 完成 数据 从 数据 源 向 目标 数据 仓库 转化 
的 过 程 ,是 实施 数据 仓库 的 重要 步骤 。ETL 包含 以 下 三 方面 。 

抽取 : 将 数据 从 各 种 原始 的 业务 系统 中 读 取出 来 ,这 是 所 有 工作 的 前 提 。 

转换 : 按照 预先 设计 好 的 规则 将 抽取 的 数据 进行 转换 ,使 本 来 异 构 的 数据 格式 能 统一 
起 来 。 

装载 : 将 转换 完 的 数据 按 计划 增 量 或 全 部 导入 到 数据 仓库 中 。 

在 技术 上 主要 涉及 增 量 ,转换 、 调 度 和 监控 等 几 个 方面 的 处 理 。 

2. ETL 的 作用 

ETL 作为 BL/DW 的 核心 和 灵魂 ,按照 统一 的 规则 集成 并 提高 数据 的 价值 ,是 负责 完成 
数据 从 数据 源 向 目标 数据 仓库 转化 的 过 程 ,是 实施 数据 仓库 的 重要 步骤 。 如 果 说 数据 仓库 
的 模型 设计 是 一 座 大 厦 的 设计 蓝图 .数据 是 砖 瓦 ,那么 ETL 就 是 建设 大 厦 的 过 程 。 在 整个 
项 目 中 的 最 难 部 分 是 用 户 需求 分 析 和 模型 设计 ,而 ETL 规则 设计 和 实施 则 是 工作 量 最 大 
的 ,其 工作 量 要 占 整个 项 目的 60% 一 80%, 这 是 国内 外 从 众多 实践 中 得 到 的 普遍 共识 。 

整个 商务 智能 /数据 仓库 系统 由 三 大 部 分 组 成 : 数据 集成 ,数据 仓库 和 数据 集 市 、 多 维 
数据 分 析 。 通 常 ,商务 智能 运作 所 依靠 的 信息 系统 是 一 个 由 传统 系统 .不 兼容 数据 源 .数据 
库 与 应 用 所 共同 构成 的 复杂 数据 集合 ,各 个 部 分 之 间 不 能 彼此 交流 。 从 这 个 层面 看 : 目前 
运行 的 应 用 系统 是 花费 了 很 大 精力 和 财力 构建 的 .不 可 替代 的 系统 ,特别 是 系统 的 数据 。 而 
新 建 的 商务 智能 系统 目的 就 是 要 通过 数据 分 析 来 辅助 自己 决策 ,恰恰 这 些 数据 的 来 源 、 格 式 
不 一 样 ,导致 了 系统 实施 .数据 整合 的 难度 加 大 。 此 时 ,用 户 非常 希望 有 一 个 全 面 的 解决 方 
案 来 解决 自己 的 困境 ,解决 自己 企业 的 数据 一 致 性 与 集成 化 问题 ,使 用 户 能 够 从 所 有 传统 环 
境 与 平台 中 采集 数据 ,并 利用 一 个 单一 解决 方案 对 其 进行 高 效 的 转换 。 这 个 解决 方案 就 
是 ETL。 

3.ETL 的 工具 

ETL 工具 有 : OWB (Oracle Warehouse Builder)、ODI (Oracle Data Integrator ) 、 
Informatic PowerCenter、AICloudETL 、DataStage、Repository Explorer, Beeload, Kettle、 
DataSpider。ETL 工具 的 功能 可 以 概括 为 以 下 几 方 面 : 对 平台 的 支持 ,对 数据 源 的 支持 , 数 
据 转换 功能 ,管理 和 调度 功能 ,集成 和 开放 性 ,对 元 数据 的 管理 。 

1) 对 平台 的 支持 

随 着 各 种 应 用 系统 数据 量 的 飞速 增长 和 人 们 对 业务 可 靠 性 的 要 求 不 断 提高 ,数据 抽取 
工具 面 对 的 要 求 往 往 是 将 几 十 甚至 上 百 GB 的 数据 在 有 限 的 几 个 小 时 内 完成 抽取 转换 和 装 
载 ,这 种 挑战 势必 要 求 抽取 工具 对 高 性 能 的 硬件 和 主机 提供 支持 。 因 此 ,可 以 从 数据 抽取 工 
具 支 持 的 平台 来 判断 其 能 否 胜任 环境 ,目前 主流 的 平台 包括 SUN Solaris、 HP-UX、IBM 
AIX、AS/400、OS/390、Sco UNIX、Linux、Windows 等 。 

2) 对 数据 源 的 支持 

对 数据 源 支 持 的 重要 性 不 言 而 喻 ,因此 必须 仔细 考虑 这 个 指标 。 首 先 需 要 对 项 目 中 可 
能 会 遇 到 的 各 种 数据 源 有 清晰 的 认识 ,其 次 对 各 种 工具 提供 的 数据 源 接口 类 型 也 要 有 深入 
了 解 ,比如 ,针对 同一 种 数据 库 , 使 用 通用 的 接口 (如 ODBC/JDBC) 还 是 原 厂商 自己 的 专用 
接口 ,数据 抽取 效率 会 有 很 大 差别 ,这 直接 关系 到 能 不 能 在 有 限 的 时 间 内 完成 ETL 任务 。 
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这 里 列 出 一 些 常见 的 数据 源 以 供 参 考 : DB2 Informix、Oracle、Sybase、SQL Server、SAS、 
Text、Excel,.SAP、Peoplesoft 等 。 

3) 数据 转换 功能 

数据 转换 是 ETL 中 最 令 人 头疼 的 问题 。 由 于 业务 系统 的 开发 一 般 有 一 个 较 长 的 时 间 
跨度 ,这 就 造成 一 种 数据 在 业务 系统 中 可 能 会 有 多 种 完全 不 同 的 存储 格式 ,甚至 还 有 许多 数 
据 仓 库 分 析 中 所 要 求 的 数据 在 业务 系统 中 并 不 直接 存在 ,而 是 需要 根据 某 些 公式 对 各 部 分 
数据 进行 计算 才能 得 到 。 因 此 ,这 就 要 求 ETL 工具 必须 对 抽取 到 的 数据 能 进行 灵活 的 计 
算 、 合 并 、 拆 分 等 转换 操作 。 

4) 管理 和 调度 功能 

由 于 对 数据 抽取 的 要 求 越 来 越 高 以 及 专业 ETL 工具 的 不 断 涌现 ,ETL 过 程 早已 不 再 
是 一 个 简单 的 小 程序 就 能 完成 ,目前 主流 的 工具 都 采用 像 多 线程 .分 布 式 、 负 载 均衡 、 集 中 管 
理 等 高 性 能 高 可 靠 性 与 易 管理 和 扩展 的 多 层 体系 架构 ,因此 这 就 要 求 ETL 的 管理 和 调度 都 
具备 相应 的 功能 。 

5) 集成 和 开放 性 

随 着 数据 仓库 技术 在 国内 应 用 的 不 断 深入 ,许多 开发 商 希 望 不 向 用 户 提 供 ETL 工具 的 
原 操 作 界面 ,而 是 将 其 一 些 主要 功能 模块 庶 入 到 自己 的 系统 或 其 他 厂商 的 系统 中 ,因为 在 大 
多 数 情 况 下 一 般 项 目 只 会 用 到 ETL 工具 的 少数 几 个 功能 ,同时 也 没有 必要 给 用 户 提供 那么 
复杂 的 操作 环境 ,这 反倒 使 用 户 容易 产生 操作 错误 。 这 就 要 求 ETL 工具 能 提供 很 好 的 集成 
性 和 开放 性 。 

6) 对 元 数据 的 管理 

元 数据 是 关于 数据 的 数据 ,其 对 于 ETL 来 说 尤其 重要 。ETL 中 大 量 的 数据 源 定义 、 映 
射 规则 、 转 换 规则 、 装 载 策略 等 都 属于 元 数据 范畴 ,如 何 妥 善 地 存储 这 些 信息 不 仅 关 系 到 
ETL 过 程 能 否 顺利 完成 ,而 且 影响 到 后 期 的 使 用 和 维护 。 任 何 业务 逻辑 的 微小 改变 最 终 都 
落实 为 相应 元 数据 的 调整 ,如 果 初 期 没有 一 个 完善 的 元 数据 管理 功能 ,后 期 做 类 似 调整 几乎 
是 “不 可 完成 的 任务 ”。 基 于 元 数据 的 重要 性 ,国际 组 织 提 出 了 一 些 统一 的 元 数据 存储 标准 ， 
比较 知名 的 如 CWM 等 ,这 为 不 同 厂商 工具 之 间 互 操作 提供 了 可 能 性 ,相信 这 也 是 以 后 的 发 
展 趋势 。 


2.1.4 数据 集 市 


数据 集 市 (Data Marts) 可 以 理解 为 数据 仓库 的 子 集 , 是 一 种 更 小 、 更 集中 的 数据 仓库 ， 
它 面向 更 详细 的 业务 主题 。 人 们 在 早期 开发 企业 级 数据 仓库 时 ,一 般 是 先 建立 一 个 全 局 的 
数据 仓库 ,然后 在 此 基础 上 建立 各 种 应 用 , 即 采用 自 顶 向 下 的 方法 。 但 在 开发 的 过 程 中 会 出 
现 以 下 问题 。 

(1) 按照 自 顶 向 下 的 方法 建立 企业 级 数据 仓库 ,建设 规模 往往 较 大 ,建设 周期 长 , 投 
资 大 。 

(2) 在 数据 仓库 建 好 后 , 随 着 使 用 数据 仓库 的 部 门 增多 ,对 数据 仓库 资源 的 竞争 将 成 为 
企业 面临 的 一 个 难题 。 

(3) 各 个 部 门 都 希望 能 制定 数据 仓库 中 的 数据 ,但 数据 仓库 是 面向 企业 的 。 

为 解决 上 述 问 题 , 人 们 提出 了 数据 集 市 的 概念 ,数据 集 市 一 般 作 为 局 部 数据 仓库 或 部 门 
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级 数据 仓库 ,通常 服务 于 单个 部 门 或 企业 中 的 部 分 用 户 。 按 照 业 务 的 不 同 可 以 分 为 财务 、 销 
售 \ 市 场 等 多 个 数据 集 市 ,每 个 数据 集 市 只 包含 特定 领域 内 的 数据 。 在 数据 仓库 的 实施 过 程 
中 往往 可 以 从 一 个 部 门 的 数据 采集 着 手 , 以 后 再 用 几 个 数据 集 市 组 成 一 个 完整 的 数据 仓库 。 
数据 仓库 和 数据 集 市 的 比较 见 表 2-1。 


表 2-1 数据 仓库 与 数据 集 市 的 比较 


数据 仓库 数据 集 市 
数据 来 源 遗留 系统 .OLTP 系统 、 外 部 数据 数据 仓库 
范 企业 级 部 门 级 或 工作 组 级 
主题 企业 主题 部 门 或 特殊 的 分 析 主 题 
数据 粒度 最 细 的 粒度 较 粗 的 粒度 
数据 结构 规范 化 结构 (第 3 范式 ) 星 状 模式 、 雪 片 模式 或 两 者 混合 
历史 数据 大 量 的 历史 数据 适度 的 历史 数据 
优化 处 理 海量 数据 ,数据 索引 便于 访问 和 分 析 ,快速 查询 
索引 高 度 索引 高 度 索 引 


关于 构建 数据 仓库 和 数据 集 市 的 先后 顺序 ,Ralph Kimball 和 Inmon 提出 了 两 种 截然 
不 同 的 观点 ,Ralph Kimball 认为 “数据 仓库 仅仅 是 构成 它 的 数据 集 市 的 联合 ”, 而 Inmon 认 
为 “只 有 在 构建 几 个 单 主题 区 域 之 后 ,集中 式 的 数据 仓库 才能 创建 数据 集 市 "。 事 实 上 ,构建 
方法 的 选择 取决 于 项 目的 主要 商业 驱动 。 如 果 一 个 组 织 正 在 忍受 糟糕 的 数据 管理 和 不 一 致 
的 数据 ,或 者 希望 为 今后 打下 良好 的 基础 ,那么 Inmon 的 方法 就 更 好 一 些 。 如 果 该 组 织 迫 
切 需 要 给 用 户 提供 信息 ,那么 Kimball 的 方法 可 以 满足 要 求 。 


2.1.5 数据 仓库 的 数据 组 织 


数据 仓库 中 通常 采用 分 级 的 方式 组 织 数 据 ,包括 早期 细节 数据 、 当 前 细节 数据 、 轻 度 综 
合 数 据 、 高 度 综合 数据 和 元 数据 5 个 部 分 。 

(1) 早期 细节 数据 是 指 存储 的 过 去 的 详细 数据 , 它 反映 了 真实 的 历史 情况 。 这 类 数据 
随 着 时 间 的 增加 ,数据 量 也 变 得 很 大 ,但 是 使 用 频率 低 ,一 般 存 储 在 转换 介质 中 。 

(2) 当前 细节 数据 是 指 最 近 时 期 的 业务 数据 , 它 反映 了 当前 业务 的 情况 ,数据 量 大 ,是 
数据 仓库 用 户 最 感 兴趣 的 部 分 。 随 着 时 间 的 推移 ,当前 细节 数据 由 数据 仓库 的 时 间 控 制 机 
制 转换 为 早期 细节 数据 。 

(3) 轻 度 综合 数据 是 指 从 当前 基本 数据 中 提取 出 来 .以 较 小 的 时 间 段 统计 而 形成 的 数 
据 。 这 类 数据 较 细 节 数 据 的 数据 量 小 得 多 。 

(4) 高 度 综合 数据 ,这 一 层 的 数据 十 分 精练 ,是 一 种 难 决策 的 数据 。 

(5) 整个 数据 的 组 织 结构 由 元 数据 统一 来 组 织 , 它 不 包括 任何 业务 数据 库 中 的 实际 数 
据 信息 。 


2.1.6 数据 仓库 的 体系 结构 


整个 数据 仓库 系统 一 般 是 一 个 包含 4 个 层次 的 体系 结构 ,具体 由 图 2-1 表示 。 
数据 源 : 是 数据 仓库 系统 的 基础 ,是 整个 系统 的 数据 源泉 ,通常 包括 企业 内 部 信息 和 外 
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部 信息 。 内 部 信息 包括 存放 于 RDBMS 中 的 各 种 业务 处 理 数 据 和 各 类 文档 数据 。 外 部 信息 
包括 各 类 法 律 法 规 ,市 场 信息 和 竞争 对 手 的 信息 以 及 各 类 外 部 统计 数据 及 各 类 文档 等 。 

数据 的 存储 与 管理 : 是 整个 数据 仓库 系统 的 核心 。 数 据 仓 库 的 真正 关键 是 数据 的 存储 
和 管理 。 数 据 仓 库 的 组 织 管理 方式 决定 了 它 有 别 于 传统 数据 库 , 同 时 也 决定 了 其 对 外 部 数 
据 的 表现 形式 。 要 决定 采用 什么 产品 和 技术 来 建立 数据 仓库 的 核心 , 则 需要 从 数据 仓库 的 
技术 特点 着 手 分 析 。 针 对 现 有 各 业务 系统 的 数据 ,进行 抽取 、 清 理 ,并 有 效 集成 ,按照 主题 进 
行 组 织 。 数 据 仓 库 按照 数据 的 覆盖 范围 可 以 分 为 企业 级 数据 仓库 和 部 门 级 数据 仓库 (通常 
称 为 数据 集 市 ) 。 

OLAP 服务 器 : 对 分 析 需 要 的 数据 进行 有 效 集成 , 按 多 维 模型 予以 组 织 ,以便 进行 多 角 
度 、 多 层次 的 分 析 , 并 发 现 趋 势 。 其 具体 实现 可 以 分 为 ROLAP、MOLAP 和 HOLAP。 
ROLAP 基本 数据 和 聚合 数据 均 存 放 在 RDBMS 之 中 ; MOLAP 基本 数据 和 聚合 数据 均 存 
放 于 多 维 数据 库 中 ; HOLAP 基本 数据 存放 于 RDBMS 之 中 ,聚合 数据 存放 于 多 维 数据 
库 中 。 

前 端 工具 : 主要 包括 各 种 报表 工具 、 查 询 工具 ,数据 分 析 工 具 、 数 据 挖掘 工具 以 及 各 种 
基于 数据 仓库 或 数据 集 市 的 应 用 开发 工具 。 其 中 ,数据 分 析 工 具 主要 针对 OLAP 服务 器 ， 
报表 工具 数据 挖掘 工具 主要 针对 数据 仓库 。 


OLAP 服 务 器 ， 


数据 仓库 : :8 加 . 查询 工具 
i 
几 [一 到 一 > 数据 分 析 工 具 
: 加 == 风 ~ :As 数据 挖掘 工具 


a ， 数据 市 集 ' 
本 数据 的 存储 与 管理 ;OULAP 服 务 器 ;前 器 工具 


图 2-1 数据 仓库 系统 体系 结构 


,抽取 、 清 理 
,装载 、 刷 新 


2.1.7 数据 仓库 的 开发 步骤 


建立 数据 仓库 是 一 个 解决 企业 问题 的 过 程 , 业 务 人 员 往 往 不 懂 如 何 建立 和 使 用 数据 仓 
库 ,发 挥 其 决策 支持 的 作用 ; 设计 人 员 往 往 又 不 懂 业 务 ,不 知道 应 该 建立 哪些 决策 主题 ,从 
数据 源 中 抽取 哪些 数据 。 因 此 数据 仓库 的 项 目 小 组 应 该 由 业务 人 员 和 设计 人 员 共 同 组 成 ， 
双方 需要 相互 沟通 ,协作 开发 数据 仓库 。 开 发 数据 仓库 的 过 程 包括 以 下 几 个 步骤 。 

1. 系统 分 析 ,确定 主题 

建立 数据 仓库 的 第 一 个 步骤 就 是 通过 与 业务 部 门 的 充分 交流 ,了 解 建立 数据 仓库 所 要 
解决 的 问题 的 真正 含义 ,确定 各 个 主题 下 的 查询 分 析 要 求 。 

业务 人 员 往 往 会 罗列 出 很 多 想 解 决 的 问题 ,信息 部 门 的 人 员 应 该 对 这 些 问题 进行 分 类 
汇总 ,确定 数据 仓库 所 实现 的 业务 功能 。 一 旦 确定 问题 以 后 ,信息 部 门 的 人 员 还 需要 确定 以 
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下 几 个 因素 。 


(1) 操作 出 现 的 频率 , 即 业务 部 门 每 隔 多 长 时 间 做 一 次 查询 分 析 。 

(2) 在 系统 中 需要 保存 多 久 的 数据 ,是 一 年 、 两 年 还 是 五 年 .十 年 。 

(3) 用 户 查 询 数据 的 主要 方式 ,如 在 时 间 维 度 上 是 按照 自然 年 ,还 是 财政 年 。 
(4) 用 户 所 能 接受 的 响应 时 间 是 多 长 ,是 几 秒 钟 ,还 是 几 小 时 。 


由 于 双方 在 理解 上 的 差异 ,确定 问题 和 


了 解 问题 可 能 是 一 个 需要 多 次 往复 的 过 程 ,信息 


部 门 的 人 员 可 能 需要 做 一 些 原型 演示 给 业务 部 门 的 人 员 看 ,以 最 终 确 定 系统 将 要 实现 的 功 


能 确实 是 业务 部 门 所 需要 的 。 


2. 选择 满足 数据 仓库 系统 要 求 的 软件 平台 


在 数据 仓库 所 要 解决 的 问题 确定 后 ,第 二 个 步骤 就 是 选择 合适 的 软件 平台 ,包括 数据 
库 、 建 模 工具 、 分 析 工 具 等 。 这 里 有 许多 因素 要 考虑 ,如 系统 对 数据 量 、 响 应 时 间 、 分 析 功 能 


的 要 求 等 ,以 下 是 一 些 公认 的 选择 标准 。 


(1) 厂商 的 背景 和 支持 能 力 ,能 否 提供 全 方位 的 技术 支持 和 咨询 服务 。 


(2) 数据 库 对 大 数据 量 (TB 级 ) 的 支持 
(3) 数据 库 是 否 支持 并 行 操作 。 


能 力 。 


(4) 能 否 提 供 数 据 仓库 的 建 模 工具 ,是 否 支持 对 元 数据 的 管理 。 
(5) 能 否 提供 支持 大 数据 量 的 数据 加 载 、 转 换 、 传 输 工具 (ETT)。 
(6) 能 否 提供 完整 的 决策 支持 工具 集 ,满足 数据 仓库 中 各 类 用 户 的 需要 。 


3. 建立 数据 仓库 的 逻辑 模型 
具体 步骤 如 下 。 


(1) 确定 建立 数据 仓库 逻辑 模型 的 基本 方法 。 
(2) 基于 主题 视图 ,把 主题 视图 中 的 数据 定义 转 到 逻辑 数据 模型 中 。 


(3) 识别 主题 之 间 的 关系 。 

(4) 分 解 多 对 多 的 关系 。 

(5) 用 范式 理论 检验 逻辑 数据 模型 。 
(6) 由 用 户 审核 逻辑 数据 模型 。 


4. 逻辑 数据 模型 转化 为 数据 仓库 数据 模型 


具体 步骤 如 下 。 


(1) 删除 非 战略 性 数据 : 数据 仓库 模型 中 不 需要 包含 逻辑 数据 模型 中 的 全 部 数据 项 ， 


某 些 用 于 操作 处 理 的 数据 项 要 删除 。 


(2) 增加 时 间 主 键 : 数据 仓库 中 的 数据 一 定 是 时 间 的 快照 ,因此 必须 增加 时 间 主 键 。 
(3) 增加 派生 数据 : 对 于 用 户 经 常 需要 分 析 的 数据 ,或 者 为 了 提高 性 能 ,可 以 增加 派生 


数据 。 


(4) 加 入 不 同 级 别 粒 度 的 汇总 数据 : 数据 粒度 代表 数据 细 化 程度 ,粒度 越 大 ,数据 的 汇 


总 程度 越 高 。 粒 度 是 数据 仓库 设计 的 一 个 寻 


要 因素 , 它 直 接 影响 到 驻 留 在 数据 仓库 中 的 数 


据 量 和 可 以 执行 的 查询 类 型 。 显 然 , 粒 度 级 别 越 低 , 则 支持 的 查询 越 多 ; 反之 ,能 支持 的 查 


询 就 有 限 。 


对 数据 操作 的 效率 与 能 得 到 数据 的 详细 程度 是 一 对 矛盾 ,通常 ,人 们 希望 建成 的 系统 既 
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有 较 高 的 效率 ,又 能 得 到 所 需 的 详细 资料 。 实 施 数据 仓库 的 一 个 重要 原则 就 是 不 要 试图 包 
括 所 有 详细 数据 ,因为 900% 的 分 析 需 求 是 在 汇总 数据 上 进行 的 。 试 图 将 粒度 细 化 到 最 低 
层 , 只 会 增加 系统 的 开销 ,降低 系统 的 性 能 。 

5. 数据 仓库 数据 模型 优化 

设计 数据 仓库 时 ,性 能 是 一 项 主要 考虑 因素 。 在 数据 仓库 建成 后 ,也 需要 经 常 对 其 性 能 
进行 监控 ,并 随 着 需求 和 数据 量 的 变更 进行 调整 。 

优化 数据 仓库 设计 的 主要 方法 如 下 。 

(1) 合并 不 同 的 数据 表 。 

(2) 通过 增加 汇总 表 避 免 数 据 的 动态 汇总 。 

(3) 通过 宛 余 字 段 减少 表 连 接 的 数量 ,不 能 超过 3 一 5 个 。 

(4) 用 ID 代码 而 不 是 描述 信息 作为 键 值 。 

(5) 对 数据 表 做 分 区 。 

6. 数据 清洗 转换 和 传输 

由 于 业务 系统 所 使 用 的 软 硬 件 平台 不 同 ,编码 方法 不 同 ,业务 系统 中 的 数据 在 加 载 到 数 
据 仓 库 之 前 ,必须 进行 数据 的 清洗 和 转换 ,保证 数据 仓库 中 数据 的 一 致 性 。 

在 设计 数据 仓库 的 数据 加 载 方案 时 ,必须 考虑 以 下 几 项 要 求 。 

(1) 加 载 方案 必须 能 够 支持 访问 不 同 的 数据 库 和 文件 系统 。 

(2) 数据 的 清洗 .转换 和 传输 必须 满足 时 间 要 求 ,能 够 在 规定 的 时 间 范 围 内 完成 。 

(3) 支持 各 种 转换 方法 ,各 种 转换 方法 可 以 构成 一 个 工作 流 。 

(4) 支持 增 量 加 载 ,只 把 自 上 一 次 加 载 以 来 变化 的 数据 加 载 到 数据 仓库 。 

7. 开发 数据 仓库 的 分 析 应 用 

建立 数据 仓库 的 最 终日 的 是 为 业务 部 门 提供 决策 支持 能 力 , 必 须 为 业务 部 门 选择 合适 
的 工具 实现 其 对 数据 仓库 中 的 数据 进行 分 析 的 要 求 。 

信息 部 门 所 选择 的 开发 工具 必须 满足 以 下 要 求 。 

(1) 用 户 的 全 部 分 析 功 能 要 求 。 数 据 仓 库 中 的 用 户 包 括 企 业 中 的 各 个 业务 部 门 , 他 们 
的 业务 不 同 ,要 求 的 分 析 功能 也 不 同 。 如 有 的 用 户 只 是 简单 地 分 析 报表 ,有 些 用 户 则 要 求 做 
预测 和 趋势 分 析 。 

(2) 提供 灵活 的 表现 方式 。 分 析 的 结果 必须 能 够 以 直观 .灵活 的 方式 表现 ,支持 复杂 的 
图 表 。 使 用 方式 上 ,可 以 是 客户 /服务 器 方式 ,也 可 以 是 浏览 /服务 器 方式 。 

事实 上 ,没有 一 种 工具 能 够 满足 数据 仓库 的 全 部 分 析 功 能 需求 ,一 个 完整 的 数据 仓库 系 
统 的 功能 可 能 是 由 多 种 工具 来 实现 的 ,因此 必须 考虑 多 个 工具 之 间 的 接口 和 集成 性 问题 ,对 
于 用 户 来 说 ,希望 看 到 的 是 一 致 的 界面 。 

8. 数据 仓库 的 管理 

只 重视 数据 仓库 的 建立 ,而 忽视 数据 仓库 的 管理 必然 导致 数据 仓库 项 目的 失败 。 数 据 
仓库 管理 主要 包括 数据 库 管 理 和 元 数据 管理 。 

数据 库 管理 需要 考虑 以 下 几 个 方面 。 

(1) 安全 性 管理 。 数 据 仓库 中 的 用 户 只 能 访问 到 他 的 授权 范围 内 的 数据 , 即 数据 在 传 
输 过 程 中 的 加 密 策略 。 
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(2) 数据 仓库 的 备份 和 恢复 。 数据 仓 库 的 大 小 和 备份 的 频率 直接 影响 到 备份 策略 。 

(3) 如 何 保证 数据 仓库 系统 的 可 用 性 ,用 硬件 方法 还 是 软件 方法 。 

(4) 数据 老化 。 设 计数 据 仓 库 中 数据 的 存放 时 间 周 期 和 对 过 期 数据 的 老化 方法 ,如 历 
史 数 据 只 保存 汇总 数据 ,当年 数据 保存 详细 记录 。 

然而 ,元 数据 管理 贯穿 于 整个 系统 的 建设 过 程 中 ,元 数据 是 描述 数据 的 数据 。 在 数据 采 
集 阶 段 ,元 数据 主要 包括 下 列 信息 。 

(1) 元 数据 的 描述 定义 : 类 型 ,位置 结构 。 

(2) 数据 转换 规则 : 编码 规则 行业 标准 。 

(3) 目标 数据 仓库 的 模型 描述 : 星 状 /雪花 模型 定义 , 维 / 事 实 结构 定义 。 

(4) 元 数据 到 目标 数据 仓库 的 映射 关系 : 函数 /表达 式 定义 。 

(5) 代码 : 生成 转换 程序 、 自 动 加 载 程序 等 。 

在 数据 管理 阶段 ,元 数据 主要 包括 下 列 信息 。 

(1) 汇总 数据 的 描述 : 汇总 /聚合 层次 、 物 化 视图 结构 定义 。 

(2) 历史 数据 存储 规则 : 位 置 . 存 储 粒 度 。 

(3) 多 维 数据 结构 描述 : 立方 体 定义 、 维 结构 .度量 值 . 钻 取 层 次 定义 等 。 

在 数据 展现 阶段 ,元 数据 主要 包括 以 下 信息 。 

(1) 报表 的 描述 ; 报表 结构 的 定义 。 

(2) 统计 函数 的 描述 : 各 类 统计 分 析 函 数 的 定义 。 

(3) 结果 输出 的 描述 : 图 、 表 输出 的 定义 。 

元 数据 不 但 是 独立 存放 ,而 且 对 用 户 是 透明 的 ,标准 元 数据 之 间 可 以 互相 转换 。 


2.2 在 线 分 析 处 理 


2.2.1 OLAP 简介 


当今 的 数据 处 理 大 致 可 以 分 成 两 大 类 : 在 线 事 务 处 理 (On-Line Transaction 
Processing,OLTP) ,在 线 分 析 处 理 (On-Line Analytical Processing,OLAP)。OLTP 是 传 
统 的 关系 型 数据 库 的 主要 应 用 ,主要 是 基本 的 .日常 的 事务 处 理 , 例 如 银行 交易 。OLAP 是 
数据 仓库 系统 的 主要 应 用 ,支持 复杂 的 分 析 操 作 ,侧重 决策 支持 ,并 且 提 供 直观 易 懂 的 查询 
结果 。 

20 世纪 60 年 代 , 关 系数 据 库 之 父 E. F. Codd 提出 了 关系 模型 ,促进 了 在 线 事务 处 理 
OLTP 的 发 展 。 在 线 事务 处 理 通常 是 一 个 或 一 组 记录 的 查询 和 修改 ,用 于 处 理 短暂 的 交易 
事务 ,如 实时 库存 变化 ,银行 账面 更 新 、 顾 客 的 订单 与 发 货 情况 的 更 新 等 。 然 而 在 日 常 决 策 
中 ,决策 者 不 能 仅 局 限于 粗略 的 数据 查阅 ,更 需要 精细 的 数据 分 析 , 需 要 从 多 个 角度 分 析 问 
题 , 以 便 发 现 多 个 变量 之 间 的 关系 ,这 些 观 察 数据 的 角度 称 为 维 。1993 年 ,E. F. Codd 提 
出 了 在 线 分 析 处 理 OLAP 的 概念 ,认为 OLTP 已 不 能 满足 终端 用 户 对 数据 库 查 询 分 析 的 需 
要 ,SQL 对 大 型 数据 库 进行 的 简单 查询 也 不 能 满足 终端 用 户 分 析 的 要 求 。 用 户 的 决策 分 析 
需要 对 关系 数据 库 进 行 大 量 计算 才能 得 到 结果 ,而 查询 的 结果 并 不 能 满足 决策 者 提出 的 需 
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求 。 因 此 ,E. F. Codd 提出 了 多 维 数据 库 和 多 维 分 析 的 概念 , 即 OLAP。 

OLAP 是 使 分 析 人 员 .管理 人 员 或 执行 人 员 能 够 从 多 角度 对 信息 进行 快速 ,一致 ,交互 
地 存 取 ,从 而 获得 对 数据 的 更 深入 了 解 的 一 类 软件 技术 。OLAP 的 目标 是 满足 决策 支持 或 
者 满足 在 多 维 环 境 下 特定 的 查询 和 报表 需求 , 它 的 技术 核心 是 “ 维 ” 这 个 概念 。“ 维 ”是 人 们 
观察 客观 世界 的 角度 ,是 一 种 高 层次 的 类 型 划分 。“ 维 ”一 般 包含 着 层次 关系 ,这 种 层次 关系 
有 时 会 相当 复杂 。 通 过 把 一 个 实体 的 多 项 重要 的 属性 定义 为 多 个 维 ,用 户 能 对 不 同 维 上 的 
数据 进行 比较 。 因 此 OLAP 也 可 以 说 是 多 维 数据 分 析 工 具 的 集合 。 


2.2.2 OLAP 的 定义 和 相关 概念 


1. OLAP 的 定义 

目前 关于 在 线 分 析 处 理 的 定义 有 很 多 ,OLAP 委员 会 (OLAP Council) 给 出 了 较为 正式 
和 严格 的 在 线 分 析 处 理 的 定义 ,他 们 认为 在 线 分 析 处 理 是 使 管理 人 员 能 够 从 多 种 角度 对 从 
原始 数据 中 转化 出 来 的 ,能 够 真正 为 用 户 所 理解 的 并 真实 反映 业务 维特 性 的 信息 进行 快速 、 
一 致 和 交互 的 存 取 ,从 而 获得 对 数据 更 深入 的 理解 。 从 这 个 定义 可 以 看 出 在 线 分析 处 理 根 
据 用 户 选择 的 分 析 角 度 ,快速 地 从 一 个 维 转变 到 另 一 个 维 , 或 者 在 维 成 员 之 间 进 行 比较 ,使 
用 户 可 以 在 短 时 间 内 从 不 同 角度 审视 业务 的 经 营 状况 ,以 直观 易 懂 的 方式 为 管理 人 员 提 供 
决策 支持 。 

2. OLAP 的 相关 概念 

1) 变量 

变量 (Measure) 也 称 度量 ,是 数据 的 实际 意义 , 即 描述 数据 “是 什么 >。 例如 ,数据 
“10000” 本 身 并 没有 意义 或 者 说 意义 未 定 , 它 可 能 是 一 个 学 校 的 学 生 人 数 , 也 可 能 是 某 产品 
的 单价 ,还 可 能 是 某 商品 的 销售 量 等 。 一 般 情况 下 ,变量 是 一 个 数值 的 度量 指标 ,例如 “人 
数 ”“ 单 价 “ 销 售 量 ” 等 都 是 变量 或 称 为 度量 ,而 “10000 万 元 ” 则 是 变量 的 一 个 值 ,销售 量 
10000 万 元 常 称 为 度量 值 。 

2) 维 

维 (Dimension) 是 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 产品 销售 量 随时 间 的 
变化 情况 ,这 时 他 是 从 时 间 的 角度 来 观察 产品 的 销售 ,所 以 时 间 就 是 一 个 维 (时 间 维 )。 企 业 
也 时 常 关 心 自己 的 产品 在 不 同 地 区 的 销售 分 布 情况 ,这 时 它 是 从 地 区 分 布 的 角度 来 观察 产 
品 的 销售 ,所 以 地 区 也 是 一 个 维 (地 区 维 )。“ 维 ”是 OLAP 中 十 分 重要 的 概念 。 

3) 维 的 层次 

人 们 观察 数据 的 某 个 特定 角度 ( 即 某 个 维 ) 还 可 能 存在 细节 程度 不 同 的 多 个 描述 方面 ， 
我 们 称 这 多 个 描述 方面 为 维 的 层次 (Hierarchy)。 例 如 : 描述 时 间 维 时 ,可 以 从 年 、 季 、 月 、 
日 等 不 同 层次 来 描述 ,那么 年 、 季 、 月 日 等 就 是 时 间 维 的 一 种 层次 ; 同样 ,县 .市 .省 .大 区 、 
国家 等 构成 了 地 区 维 的 一 种 层次 。 

4) 维 成 员 

维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 (Member) ,也 称 作 维 值 。 如 果 一 个 维 的 某 种 层 
次 具有 多 个 层 , 那 么 该 维 的 维 成 员 是 不 同 维 层 的 取 值 的 组 合 。 假 设 时 间 维 的 层次 是 年 月 、 
日 这 三 个 层 , 分 别 在 年 .月 .日 上 各 取 一 个 值 组 合 起 来 ,就 得 到 了 时 间 维 的 一 个 维 成 员 , 即 * 某 
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年 某 月 某 日 ”。 一 个 维 成 员 并 不 一 定 在 每 个 维 层 上 都 要 取 值 ,例如 ,“ 某 年 某 月 ”“ 某 月 某 日 ” 
“ 某 年 ”等 都 是 时 间 维 的 维 成 员 。 

5) 多 维 立方 体 

多 维 数据 模型 的 数据 结构 可 以 用 这 样 一 个 多 维 数组 来 表示 : ( 维 1, 维 2,…… , 维 交 度 
量 值 ) 。 例 如 ,如 图 2-2 所 示 的 电器 商品 销售 数据 是 按 商 品 \ 时 间 、 地 区 ,加 上 变量 “销售 额 ” 
组 成 的 一 个 三 维 数组 : 商品, 时间 ,地 区 ,销售 额 )。 三 维 数组 可 以 用 一 个 立方 体 来 直观 地 
表示 。 一 般 地 ,多 维 数组 用 多 维 立 方 体 Cube 来 表示 。 多 维 立方 体 Cube 也 称 为 超 立方 体 。 


商品 地 区 
4 
北京 
销售 额 /万 元 
冰箱 
电视 
人 时 间 
ji 


图 2-2 按 商品 ,时间 和 地 区 组 织 的 电器 商品 销售 数据 


6) 数据 单元 

多 维 立方 体 Cube 的 取 值 称 为 数据 单元 (Cell) 。 当 多 维 立方 体 的 各 个 维 都 选中 一 个 维 
成 员 ,这 些 维 成 员 的 组 合 就 唯一 确定 了 一 个 变量 的 值 。 

对 于 三 维 以 上 的 超 立 方 体 , 很 难 用 可 视 化 的 方式 直观 地 表示 出 来 。 为 此 人 们 用 较 形象 
的 “ 星 状 模式 ”(Star Schema) 和 "“ 雪 片 模式 ”(Snow Flake Schema) 来 描述 多 维 数据 模型 。 


2.2.3 ”OLAP 与 OLTP 的 区 别 


OLAP 与 OLTP 有 较 大 的 区 别 。OLAP 是 数据 仓库 系统 的 主要 应 用 ,支持 复杂 的 分 析 
操作 ,侧重 决策 支持 ,并 且 提 供 直观 易 懂 的 查询 结果 ; OLTP 是 传统 的 关系 型 数据 库 的 主要 
应 用 ,主要 是 基本 的 日常 的 事务 处 理 , 例 如 银行 交易 。OLAP 是 决策 人 员 和 高 层 管理 人 员 
对 数据 仓库 进行 信息 分 析 处 理 , 而 OLTP 是 操作 人 员 和 低层 管理 人 员 利 用 计算 机 网 络 对 数 
据 库 中 的 数据 进行 查询 增加、 删除 和 修改 等 操作 ,以 完成 事务 处 理工 作 。OLTP 和 OLAP 
的 不 同 ,主要 通过 以 下 5 点 区 分 开 来 。 

(1) 用 户 和 系统 的 面向 性 : OLTP 是 面向 顾客 的 ,用 于 事务 和 查询 处 理 ; OLAP 是 面向 
市 场 的 ,用 于 数据 分 析 。 

(2) 数据 内 容 : OLTP 系统 管理 当前 数据 ; OLAP 系统 管理 大 量 历史 数据 ,提供 汇总 和 
聚集 机 制 。 

(3) 数据 库 设 计 : OLTP 采用 实体 -联系 (E-R) 模 型 和 面向 应 用 的 数据 库 设 计 ; OLAP 
采用 星 状 或 雪 片 模式 和 面向 主题 的 数据 库 设计 。 

(4) 视图 : OLTP 主要 关注 一 个 企业 或 部 门 内 部 的 当前 数据 ,不 涉及 历史 数据 或 不 同 
组 织 的 数据 ; OLAP 则 相反 。 

(5) 访问 模式 : OLTP 系统 的 访问 主要 由 短 的 原子 事务 组 成 ,这 种 系统 需要 并 行 和 恢 
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复 机 制 ; OLAP 系统 的 访问 大 部 分 是 只 读 操 作 。 
OLAP 与 OLTP 的 主要 区 别 如 表 2-2 和 表 2-3 所 示 。 


表 2-2 OLTP 与 OLAP 的 比较 


项 目 OLTP OLAP 
用 户 操作 人 员 ,低层 管理 人 员 决策 人 员 ,高 级 管理 人 员 
功能 日 常 操作 处 理 分 析 决 策 
DB 设计 面向 应 用 面向 主题 
数据 当前 的 ,最 新 的 ,细节 的 ,二 维 的 ,分 立 的 历史 的 ,聚集 的 ,多 维 的 ,集成 的 ,统一 的 
存 取 读 / 写 数 十 条 记录 读 上 百 万 条 记录 
工作 单位 简单 的 事务 复杂 的 查询 
用 户 数 EE 让 省 上 再 地 
DB 大 小 100MB~GB 100GB~TB 


表 2-3 OLTP 与 OLAP 数据 的 区 别 


OLTP 数据 OLAP 数据 
原始 数据 导出 数据 
细节 性 数据 综合 性 和 提炼 性 数据 
当前 值 数据 历史 数据 
可 更 新 不 可 更 新 ,但 周期 性 刷新 
一 次 处 理 的 数据 量 小 一 次 处 理 的 数据 量 大 
面向 应 用 ,事务 驱动 面向 分 析 , 分 析 驱 动 
面向 操作 人 员 ,支持 日 常 操作 面向 决策 人 员 ,支持 管理 需要 


2.2.4 ”OLAP 的 分 类 


OLAP 有 多 种 实现 方法 ,根据 存储 数据 的 方式 不 同 可 以 分 为 ROLAP、MOLAP、 
HOLAP。 


1. ROLAP 


ROLAP 表示 基于 关系 数据 库 的 OLAP 实现 (Relational OLAP) ,以 关系 数据 库 为 核 
心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 数据 库 的 多 维 结构 划分 为 
两 类 表 : 一 类 是 事实 表 , 用 来 存储 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 对 每 个 维 至 少 使 用 一 
个 表 来 存放 维 的 层次 ,成员 类 别 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 主 关 键 字 和 外 关键 字 
联系 在 一 起 ,形成 了 “ 星 状 模式 ”。 对 于 层次 复杂 的 维 ,为 避免 元 余数 据 占用 过 大 的 存储 空 
间 ,可 以 使 用 多 个 表 来 描述 ,这 种 星 状 模式 的 扩展 称 为 “ 雪 片 模式 ”。ROLAP 的 最 大 好 处 是 
可 以 实时 地 从 元 数据 中 获得 最 新 数据 更 新 ,以 保持 数据 实时 性 ,缺陷 在 于 运算 效率 比较 低 ， 
用 户 等 待 响应 时 间 比 较 长 。 

2. MOLAP 


MOLAP 表示 基于 多 维 数据 组 织 的 OLAP 实现 (Multidimensional OLAP) ,以 多 维 数 
据 组 织 方式 为 核心 。 也 就 是 说 ,MOLAP 使 用 多 维 数组 存储 数据 。 多 维 数据 在 存储 中 将 形 
成 “数据 立方 体 (Cube)” 的 结构 ,此 结构 在 得 到 高 度 优化 后 ,可 以 最 大 程度 地 提高 查询 性 能 。 
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随 着 元 数据 的 更 改 ,MOLAP 存储 中 的 对 象 必 须 定期 处 理 以 合并 这 些 更 改 。 两 次 处 理 之 间 

的 时 间 将 构成 滞后 时 间 , 在 此 期 间 ,OLAP 对 象 中 的 数据 可 能 无 法 与 当前 元 数据 相 匹配 。 

维护 人 员 可 以 对 MOLAP 存储 中 的 对 象 进行 不 中 断 的 增 量 更 新 。MOLAP 的 优势 在 于 由 

于 经 过 了 数据 多 维 预 处 理 , 分 析 中 数据 运算 效率 高 ,主要 的 缺陷 在 于 数据 更 新 有 一 定 延 滞 。 
3. HOLAP 


HOLAP 表示 基于 混合 数据 组 织 的 OLAP 实现 (Hybrid OLAP) ,用 户 可 以 根据 自己 的 
业务 需求 ,选择 哪些 模型 采用 ROLAP, 哪 些 模 型 采用 MOLAP。 一 般 来 说 ,会 将 不 常用 的 
或 需要 灵活 定义 的 分 析 采 用 ROLAP 方式 ,而 常用 的 或 常规 模型 采用 MOLAP 实现 。 

OLAP 按照 数据 处 理 地 点 可 以 分 为 服务 器 端 在 线 分 析 处 理 Server OLAP 和 客户 端 在 
线 分 析 人 处 理 Client OLAP。 

1) Server OLAP 

绝 大 多 数 OLAP 系统 都 属于 Server OLAP, 此 类 系统 在 服务 器 端的 数据 库 上 建立 多 维 
立方 体 , 由 服务 器 端 提供 多 维 分 析 , 并 把 最 终结 果 呈 现 给 客户 端 。 

2) Client OLAP 

Client OLAP 把 相关 立方 体 数据 下 载 到 本 地 ,由 本 地 为 用 户 提 供 多 维 分 析 , 从 而 保证 出 
现 网 络 故障 时 仍然 能 正常 工作 ,此 类 OLAP 产品 往往 轻便 ,简洁 。 


2.2.5 OLAP 多 维 数据 分 析 


我 们 已 经 知道 OLAP 的 操作 是 以 查询 一 一 也 就 是 数据 库 的 SELECT 操作 为 主 ,但 是 
查询 可 以 很 复杂 ,比如 基于 关系 数据 库 的 查询 可 以 多 表 关 联 , 可 以 使 用 COUNT、SUM、 
AVG 等 聚合 函数 。OLAP 正 是 基于 多 维 模型 定义 了 一 些 常 见 的 面向 分 析 的 操作 类 型 ,使 
这 些 操 作 显得 更 加 直观 。 

OLAP 的 多 维 分 析 操 作 包 括 钻 取 、 上 卷 、 切 片 . 切 块 以 及 旋转 ,下 面 以 如 图 2-3 所 示 的 数 
据 立方 体 为 例 来 逐一 解释 。 


食品 


2014 2014 2014 2014 
一 季度 二 季度 三 季度 四 季度 


图 2-3 数据 立方 体 
(1) 钻 取 : 在 维 的 不 同 层次 间 的 变化 .从 上 层 降 到 下 一 层 ,或 者 说 是 将 汇总 数据 拆 分 到 


更 细节 的 数据 ,如 图 2-4 所 示 通 过 对 2014 年 第 一 季度 的 总 销售 数据 进行 钻 取 来 查看 2014 
年 第 一 季度 1.2、3 每 个 月 的 消费 数据 ; 当然 也 可 以 钻 取 陕 西 省 来 查看 西安 市 .咸阳 市 宝鸡 
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四 这 些 城市 的 销售 数据 。 
服饰 
电子 产品 
日 用 品 上 海 
食品 北京 下 
请 滑 月 陕西 


图 2-4 钻 取 


(2) 上 卷 : 钻 取 的 逆 操 作 , 即 从 细 粒 度数 据 向 高 层 的 聚合 ,如 图 2-5 所 示 将 陕西 省 .北京 
市 .天津 市 和 上 海 市 的 销售 数据 进行 汇总 来 查看 陕 京 津 沪 地 区 的 销售 数据 。 


服饰 


电子 产品 


陕 京 津 沪 


2014 2014 2014 2014 
一 季度 二 季度 三 季度 四 季度 


图 2-5 上 卷 
(3) 切片 : 选择 维 中 特定 的 值 进行 分 析 , 如 图 2-6 所 示 只 选择 食品 的 销售 数据 ,或 者 
2014 年 第 二 季度 的 数据 。 


2014 2014 2014 2014 
一 季度 二 季度 三 季度 四 季度 


图 2-6 切片 


(4) 切 块 : 选择 维 中 特定 区 间 的 数据 或 者 某 批 特定 值 进行 分 析 , 如 图 2-7 所 示 选 择 
2014 年 第 三 季度 到 2014 年 第 四 季度 的 销售 数据 ,或 者 是 电子 产品 和 日 用 品 的 销售 数据 。 
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2014 2014 


三 季度 四 季度 
图 2-7 切 块 
(5) 旋转 : 即 维 的 位 置 的 互 换 ,就 像 是 二 维 表 的 行列 转换 ,如 图 2-8 所 示 通 过 旋转 实现 
产品 维和 地 域 维 的 互 换 。 


上 海 

天 津 

北京 加 

用 品 
E 1 
2014 ”2014 204 2014 服饰 
-季度 二 季度 三 季度 四 季度 
图 2-8 旋转 
2.3 数据 可 视 化 


数据 通常 是 枯燥 的 、 乏 味 的 ,相对 而 言 , 人 们 对 于 大 小 、 图 形 .颜色 等 这 些 对 象 怀 有 更 加 
浓厚 的 兴趣 ,更 加 容易 接受 和 理解 。 利 用 数据 可 视 化 平台 ,枯燥 乏味 的 数据 转变 为 丰富 生动 
的 视觉 效果 ,不 仅 有 利于 简化 人 们 的 分 析 过 程 ,也 在 很 大 程度 上 提高 了 分 析 数 据 的 效率 。 


2.3.1 什么 是 数据 可 视 化 


获得 信息 的 最 佳 方式 之 一 ,是 通过 可 视 化 方式 ,快速 抓 住 要 点 信息 。 另 外 ,通过 可 视 化 
呈现 数据 ,也 揭示 了 令 人 惊奇 的 模式 和 观察 结果 ,是 不 可 能 通过 简单 统计 就 能 显而易见 看 到 
的 模式 和 结论 。 正 如 作家 、 记 者 和 信息 设计 师 David McCandless 在 TED 上 说 :“ 通 过 视觉 
化 ,我 们 把 信息 变 成 了 一 道 可 用 眼睛 来 探索 的 风景 线 , 一 种 信息 地 图 。 当 你 迷失 在 信息 中 
时 ,信息 地 图 非常 实用 。” 
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数据 可 视 化 ,就 是 指 将 结构 或 非 结 构 数 据 转换 成 适当 的 可 视 化 图 表 , 然 后 将 隐藏 在 数据 
中 的 信息 直接 展现 于 人 们 面前 。 数据 可 视 化 技术 的 基本 思想 ,是 将 数据 库 中 每 一 个 数据 项 
作为 单个 图 元 元 素 表示 ,大 量 的 数据 集 构成 数据 图 像 , 同 时 将 数据 的 各 个 属性 值 以 多 维 数据 
的 形式 表示 ,可 以 从 不 同 的 维度 观察 数据 ,从 而 对 数据 进行 更 深入 的 观察 和 分 析 。 通 俗 的 理 
解 就 是 用 视觉 形式 向 人 们 展示 数据 重要 性 的 一 种 方法 。 


2.3.2 数据 可 视 化 的 优势 


51) 相 比 传统 的 用 表格 或 文档 展现 数据 的 方式 ,数据 可 视 化 能 将 数据 以 更 加 直观 的 方 
式 展现 出 来 ,使 数据 更 加 客观 ,更 具 说 服 力 。 在 各 类 报表 和 说 明 性 文件 中 ,用 直观 的 图 表 展 
现 数据 ,显得 简洁 .可 靠 。 在 可 视 化 图 表 工 具 的 表现 形式 方面 ,图 表 类 型 表现 得 更 加 多 样 化 、 
丰富 化 。 除 了 传统 的 饼 图 .柱状 图 .折线 图 等 常见 图 形 , 还 有 气泡 图 ,面积 图 ,省份 地 图 、 词 
云 、 瀑 布 图 ,漏斗 图 等 酷 炫 图 表 , 甚 至 还 有 GIS 地 图 。 这 些 种 类 繁多 的 图 形 能 满足 不 同 的 展 
示 和 分 析 需 求 。 

(2) 可 视 化 让 数据 分 析 更 加 便捷 。 实 现 数据 的 可 视 化 ,就 是 让 人 们 在 对 数据 进行 处 理 
的 过 程 中 ,更 加 方便 ,快捷 与 精准 。 这 样 的 数据 分 析 不 仅 能 更 加 贴近 人 们 的 生活 ,还 能 满足 
人 们 的 实际 生活 需要 。 在 进行 数据 可 视 化 分 析 的 过 程 中 还 可 以 采用 合适 的 标志 进行 处 理 。 
恰当 的 标志 可 以 让 数据 在 分 析 过 程 中 减少 误差 量 , 包 括 对 数据 分 析 及 传递 过 程 中 的 误差 ,此 
外 ,数据 可 视 化 还 具有 很 好 的 交互 性 ,不 仅 设计 功能 良好 , 且 使 用 过 程 中 更 加 有 意义 ,更 加 容 
易 被 人 们 理解 和 接受 。 

(3) 通过 数据 可 视 化 更 方便 地 获取 知识 。 现 代 背 景 下 的 数据 收集 ,具有 良好 的 精准 性 ， 
采用 新 的 软件 技术 及 手段 ,不 仅 让 人 们 更 加 容易 地 获得 庞大 的 数据 库 , 还 能 挖掘 其 隐藏 的 数 
据 目标 。 但 在 分 析 过 程 中 ,还 需要 认真 地 对 一 些 有 价值 的 数据 进行 深入 分 析 与 采集 ,因此 实 
现 数据 的 可 视 化 是 非常 必要 的 。 实 现 数据 的 可 视 化 不 仅 让 数据 变 得 通俗 易 懂 ,还 能 更 加 直 
接地 传递 所 表达 的 信息 。 


2.3.3 数据 可 视 化 工具 


数据 可 视 化 主要 旨 在 借助 于 图 形 化 手段 ,清晰 有 效 地 传达 与 沟通 信息 。 为 了 有 效 地 传 
达 思 想 概念 ,美学 形式 与 功能 需要 齐头并进 ,通过 直观 地 传达 关键 的 方面 与 特征 ,从 而 实现 
对 于 相当 稀 朴 而 又 复杂 的 数据 集 的 深入 洞察 。 这 意味 着 面 对 一 大 堆 杂 乱 的 数据 ,你 无 法 嗅 
党 其 中 的 关系 ,但 通过 可 视 化 的 数据 呈现 ,你 能 很 清晰 地 发 觉 其 中 的 价值 。 

目前 ,已 经 有 很 多 数据 可 视 化 工具 可 以 满足 各 种 可 视 化 需求 。 主 要 包括 用 于 日 常 办 公 
的 Excel ,信息 图 表 工 具 Google Chart API、D3.js、Folt、Echarts、Rapha&l, 地 图 工具 Modest 
Maps、Leaflet\.PolyMaps、OpenLayers、Kartograph Google Fushion Tables\Quamum GIS, 
时 间 线 工具 Timetoast、Xtimeline、Timeslide、Dipity, 以 及 高 级 分 析 工 具 Precessing、 
NodeBox、R、Weka 和 Gephi 等 。 下 面 就 常用 的 几 款 信息 图 表 工 具 进行 介绍 。 

1. Google Chart API 


Google Chart API 是 谷歌 公司 提供 的 一 个 制图 服务 接口 ,可 以 用 来 为 统计 数据 自动 生 
成 图 片 ,而 且 无 须 安装 ,主要 通过 浏览 器 在 线 查 看 统计 图 表 。Google Chart API 为 每 个 请 求 
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返回 一 个 PNG 格式 的 图 片 ,目前 主要 提供 折线 图 、 柱 状 图 、 饼 图 、 维 恩 图 、 散 点 图 ,可 以 设 定 
图 表 尺寸 .颜色 和 图 例 。 
所 有 Chart API URL 都 应 使 用 如 下 格式 : 


http://chart. apis. google. com/chart?< parameter 1 > &< parameter 2> &< parameter n> 


多 个 参数 间 使 用 “&.” 作 为 分 隔 符 ,可 以 使 用 任意 多 个 参 sokb 
数 , 比 如 使 用 如 下 的 参数 可 以 生成 一 张 如 图 2-9 所 示 的 折 


http://chart. apis. google. com/chart? cht = lcgchs = 200 x 
125&chd = s: helloWorldgchxt = x, Y&chxl = 0: | Mar | Apr | May | Mar Apr May June July 
June|lJuly|1:|1150+ Kb 

图 2-9 Google Chart 折线 图 
各 个 参数 含义 解释 如 下 。 


(1) http://chart. apis. google. com/chart? 为 Chart API 调用 地 址 。 

(2) & 为 参数 分 隔 符 。 

(3) chs 二 200X125 为 图 表 尺 寸 。 

(4) chd 二 s:helloWorld 为 图 表 数 据 值 。 

(5) cht 二 lc 为 图 表 类 型 。 

(6) chxt 二 x,y 为 显示 x、y 轴 坐 标 。 

(7) chxl 二 0: |Mar| Apr| May|June|July|1:|1150 十 Kb 为 xz、y 轴 坐 标 值 。 

2. D3.js 

D3.js 是 一 个 JavaScript 库 , 它 可 以 通过 数据 来 操作 文档 。D3 可 以 通过 使 用 HTML、 
SVG 和 CSS 把 数据 形象 地 展现 出 来 。D3 严格 遵循 Web 标准 ,因而 可 以 让 程序 轻松 兼容 现 
代 主 流 浏览 器 并 避免 对 特定 框架 的 依赖 。 同 时 , 它 提 供 了 强大 的 可 视 化 组 件 , 可 以 让 使 用 者 
以 数据 驱动 的 方式 去 操作 DOM。 总 的 来 说 ,D3 是 一 个 特殊 的 JavaScript 库 , 它 利用 现 有 的 
Web 标准 ,通过 更 简单 的 (数据 驱动 ) 方 式 来 制作 炫目 的 可 视 化 效果 。 图 2-10 展现 了 D3.js 
的 图 形 。 

D3.js 的 主要 特点 如 下 。 

(1) 绑 定 任意 数据 到 DOM。 

(2) 创建 交互 式 SVG 条 形 图 。 

(3) 从 数据 集 里 产生 HTML 表格 。 

(4) 多 种 组 合 和 插件 来 增强 兼容 性 。 

(5) 内 置 的 可 重复 使 用 的 组 件 以 便于 编码 。 

3. Flot 

Flot 是 JQuery 的 一 个 JavaScript 绘图 库 , 是 一 个 基于 浏览 器 的 应 用 程序 ,并 且 能 够 兼 
容 大 多 常见 的 浏览 器 ,包括 IE、Chrome、Firefox、Safari 和 Opera。Flot 对 于 数据 观点 支持 
多 种 可 视 化 选择 ,如 交互 式 图 表 , 堆 释 式 图 表 、 平 移 和 缩放 ,以 及 通过 各 种 插件 实现 各 种 特定 
功能 。 图 2-11 展示 了 Flot 图 形 。 

Flot 的 主要 特点 如 下 。 
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图 2-10 D3.js 图 形 


Series Types 


Flot supports lines, points, filled areas, bars and any combinations of these, in the same plot and even on the 
same data series. 


图 2-11 Flot 图 形 


(1) 支持 线性 .图片 ,用 任何 组 合 填充 区 域 。 
(2) 在 同一 个 数据 序列 里 运用 组 合 展示 元 素 。 
(3) 绘图 分 类 以 及 文本 数据 。 

(4) 增加 DOM 操作 标准 的 HTML。 

(5) 产生 切换 系列 交互 式 视觉 效果 。 
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(6) 直接 的 画布 准 入 绘制 自 定义 形状 。 

4. Echarts 

Echarts 是 一 款 由 百度 前 端 技术 部 开发 的 ,基于 JavaScript 的 数据 可 视 化 图 表 库 ,提供 
直观 .生动 .可 交互 .可 个 性 化 定制 的 数据 可 视 化 图 表 , 提 供 大 量 常用 的 数据 可 视 化 图 表 , 底 
层 基于 ZRender( 一 个 全 新 的 轻 量 级 Canvas 类 库 ) ,创建 了 坐标 系 、. 图 例 、 提 示 、 工 具 箱 等 基 
础 组 件 ,并 在 此 上 构建 出 折线 图 (区 域 图 ) ,柱状 图 (条 状 图 )、 散 点 图 (气泡 图 ) 、 饼 图 (环形 
图 ) .K 线 图 .地 图 . 力 导 向 布局 图 以 及 和 弦 图 ,同时 支持 任意 维度 的 堆积 和 多 图 表 混 合 展 
现 。 图 2-12 展示 了 Echarts 图 形 。 


气泡 图 全 国 主要 城市 空气 质量 - 百度 地 图 全 国 主要 城市 空气 质量 
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图 2-12 Echarts 图 形 


5. Raphaél 

Raphaél 是 一 个 用 于 在 网 页 中 绘制 矢量 图 形 的 JavaScript 库 。 它 使 用 SVG W3C 推荐 
标准 和 VML 作为 创建 图 形 的 基础 ,可 以 通过 JavaScript 操作 DOM 来 轻松 创建 出 各 种 复杂 
的 柱状 图 、 饼 图 、 曲 线 图 等 各 种 图 表 , 还 可 以 绘制 任意 形状 的 图 形 , 可 以 进行 图 表 或 图 像 的 裁 
剪 和 旋转 等 复杂 操作 。Raphaél 是 跨 浏览 器 的 矢量 图 形 库 ,目前 支持 的 浏览 器 包括 Firefox 
3.0 十 ,Safari 3.0 十 .Chrome 5.0 十 .Opera 9. 5 十 以 及 Internet Explorer 6.0 十 。 图 2-13 展 
示 了 Raphaél 图 形 。 


图 2-13 Raphaél 图 形 
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小 结 


本 章 主要 介绍 了 数据 仓库 在线 分 析 处 理 和 商务 智能 体系 结构 的 基本 概念 。 数 据 仓库 、 
在 线 分 析 处 理 、 数 据 挖掘 是 商务 智能 的 三 大 技术 支柱 ,其 中 ,数据 仓库 是 商务 智能 的 基础 。 
数据 仓库 是 一 个 更 好 地 支持 企业 或 组 织 的 决策 分 析 处 理 的 数据 集合 , 它 有 面向 主题 .集成 、 
相对 稳定 、 随 时 间 不 断 变化 4 个 特性 。 在 线 分 析 处 理 是 通过 多 维 立方 体 技术 帮助 管理 者 从 
多 种 角度 审视 数据 ,得 出 管理 者 需求 的 正确 结论 。 数 据 挖掘 是 利用 统计 学 、 机 器 学 习 等 挖掘 
工具 对 数据 仓库 中 的 数据 进行 高 度 自动 化 的 分 析 , 得 出 模式 和 关系 的 过 程 。 数 据 可 视 化 在 
数据 分 析 中 具有 非常 重要 的 作用 ,尤其 从 用 户 角度 而 言 , 它 是 提升 用 户 数据 分 析 效 率 的 有 效 
手段 ,数据 可 视 化 工具 可 以 帮助 我 们 实现 不 同类 型 的 数据 可 视 化 分 析 , 可 以 根据 具体 应 用 场 
合 来 选择 合适 的 工具 。 


习题 


. 什么 是 数据 仓库 ? 数据 仓库 和 数据 库 有 什么 区 别 ? 
. 数据 仓库 有 哪些 特征 ? 

. 简 述 数据 仓库 的 开发 步骤 。 

. 什么 是 OLAP? OLAP 与 OLTP 之 间 有 什么 区 别 ? 
. OLAP 有 哪 几 种 类 型 ? 

. OLAP 多 维 数据 分 析 有 哪些 操作 类 型 ? 

. 试 述 数据 可 视 化 的 概念 及 数据 可 视 化 的 优势 。 

. 请 举 出 几 个 数据 可 视 化 的 有 趣 案例 。 


oo v 人 中 辐 上 性 
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随 着 计算 机 软 硬 件 技术 的 发 展 ,尤其 是 计算 机 网 络 的 发 展 与 普及 ,计算 机 处 理 和 存储 的 
数据 ,正在 以 难以 预计 的 速度 增长 ; 另外 , 随 着 社会 经 济 的 不 断 发 展 ,商业 竞争 日 趋 白 热 化 ， 
人 们 迫切 需要 从 数据 中 获得 有 用 的 知识 来 帮助 进行 科学 决策 。 针 对 "数据 丰富 而 知识 贫乏 ” 
这 一 窘境 ,数据 挖掘 应 运 而 生 。 

数据 挖掘 使 数据 处 理 技术 进入 了 一 个 更 高 级 的 阶段 。 它 不 仅 能 对 过 去 的 数据 进行 查 
询 , 并 且 能 够 找 出 与 过 去 数据 之 间 的 潜在 联系 ,进行 更 高 层次 的 分 析 , 以 便 更 好 地 做 出 理想 
的 决策 、 预 测 未 来 的 发 展 趋势 等 。 通 过 数据 挖掘 ,有 价值 的 知识 、 规 则 或 高 层次 的 信息 就 能 
从 数据 库 的 相关 数据 集合 中 抽取 出 来 ,从 而 使 大 型 数据 库 作 为 一 个 丰富 、 可 靠 的 资源 为 知识 
的 提取 服务 。 


3.1 数据 挖掘 的 起 源 与 发 展 


3.1.1 数据 挖掘 的 起 源 


为 解决 上 述 问 题 ,来 自 不 同学 科 的 研究 者 汇集 到 一 起 ,开始 着 手 开发 能 够 处 理 不 同 数据 
类 型 的 更 有 效 的 、 可 伸缩 的 工具 。 这 些 工作 都 是 建立 在 研究 者 先前 使 用 的 方法 学 和 算法 之 
上 ,并 在 数据 挖掘 领域 达到 高 潮 。 特 别 地 ,数据 挖掘 利用 了 来 自如 下 一 些 领域 的 思想 : 四 统 
计 学 的 抽样 、 估 计 和 假设 检验 ; @@ 人 工 智能 ,模式 识别 和 机 器 学 习 的 搜索 算法 、 建 模 技 术 和 
学 习 理 论 。 数 据 挖掘 也 迅速 地 接纳 了 来 自 其 他 领域 的 思想 ,这 些 领 域 包括 最 优化 、 进 化 计 
算 、 信 息 论 , 信 号 处 理 、 可 视 化 和 信息 检索 。 

一 些 其 他 领域 也 起 到 重要 的 支撑 作用 。 特 别 地 ,需要 数据 库 系统 提供 有 效 的 存储 、 索 引 
和 查询 处 理 支 持 。 源 于 高 性 能 (并 行 ) 计 算 的 技术 在 处 理 海量 数据 集 方面 常常 是 重要 的 。 分 
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布 式 技术 也 能 帮助 处 理 海量 数据 ,并 且 当 数据 不 能 集中 到 一 起 处 理 时 更 是 至 关 重 要 。 
图 3-1 展示 了 数据 挖掘 与 其 他 领域 之 间 的 联系 。 


数据 库 技术 、 并 行 计算 、 分 布 式 计算 


图 3-1 数据 挖掘 汇集 了 许多 学 科 的 知识 


3.1.2 数据 挖掘 的 发 展 


经 过 十 几 年 的 研究 和 实践 ,数据 挖掘 技术 已 经 吸收 了 许多 学 科 的 最 新 研究 成 果 , 从 而 形 
成 了 独 具 特 色 的 研究 分 支 。 弓 庸 置疑 ,数据 挖掘 研究 和 应 用 具有 很 大 的 挑战 性 。 像 其 他 新 
技术 的 发 展 历程 一 样 ,数据 挖掘 也 必须 经 过 概念 的 提出 、 概 念 的 接受 .广泛 研究 和 探索 .逐步 
应 用 和 大 量 应 用 等 阶段 。 从 现状 看 ,大 部 分 学 者 认为 数据 挖掘 的 研究 仍然 处 于 广泛 研究 和 
探索 阶段 。 一 方面 ,数据 挖掘 的 概念 已 经 被 广泛 接受 。 在 理论 上 ,一 批 具 有 挑战 性 和 前 脆性 
的 问题 被 提出 ,吸引 越 来 越 多 的 研究 者 ; 另 一 方面 ,数据 挖掘 的 广泛 应 用 还 有 待 时 日 ,需要 
深入 的 研究 积累 和 丰富 的 工程 实践 。 

随 着 数据 挖掘 概念 在 学 术 界 和 工业 界 的 影响 越 来 越 大 ,数据 挖掘 的 研究 向 着 更 深入 和 
更 实用 的 技术 方向 发 展 。 从 事 数据 挖掘 研究 的 人 员 主 要 在 大 学 ,研究 机 构 , 也 有 部 分 在 企业 
或 公司 。 所 涉及 的 研究 领域 很 多 ,研究 集中 在 学 习 算 法 的 研究 .数据 挖掘 的 实际 应 用 以 及 有 
关 数 据 挖 掘 理论 等 方面 。 进 行 的 大 多 数 基 础 研究 项 目 是 由 政府 资助 进行 的 ,而 公司 的 研究 
更 注重 和 实际 商业 问题 相 结合 。 

数据 挖掘 的 概念 从 20 世纪 80 年 代 被 提出 后 ,其 经 济 价值 就 已 经 显现 出 来 ,而 且 被 众多 
商业 厂家 所 推崇 ,形成 初步 的 市 场 。 一 份 最 近 的 Gartner 报告 中 列举 了 在 今后 3 一 5 年 内 对 
工业 将 产生 重要 影响 的 5 项 关键 技术 ,其 中 数据 挖掘 和 人 工 智能 排名 第 一 。 同 时 ,这 份 报告 
将 并 行 计算 机 体系 结构 研究 和 数据 挖掘 列 入 今后 5 年 内 公司 应 该 投资 的 10 个 新 技术 领域 。 
另外 ,目前 的 数据 挖掘 系统 也 绝 不 是 像 一 些 商家 为 了 宣传 自己 的 商品 所 说 的 那样 神奇 , 仍 有 
许多 问题 需要 研究 和 探索 。 把 目前 数据 挖掘 的 研究 现状 描述 为 鸿沟 (Chasm) 阶 段 是 比较 准 
确 的 。 所 谓 Chasm 阶段 是 说 数据 挖掘 技术 在 广泛 被 应 用 之 前 仍 有 许多 “鸿沟 ”需要 跨越 。 
例如 ,就 目前 商家 推出 的 数据 挖掘 系统 而 言 , 它 们 都 是 一 些 通用 的 辅助 开发 工具 。 这 些 工具 
只 能 给 那些 熟悉 数据 挖掘 技术 的 专家 或 高 级 技术 人 员 使 用 . 仅 对 专业 人 员 开 发 对 应 的 应 用 
起 到 加 速 或 横向 解决 方案 (Horizontal Solution) 的 作用 。 但 是 ,数据 挖掘 来 自 于 商业 应 用 ， 
而 商业 应 用 又 会 由 于 应 用 的 领域 不 同 而 存在 很 大 差异 。 大 多 数学 者 赞成 这 样 的 观点 : 数据 
挖掘 在 商业 上 的 成 功 不 能 期 望 通过 通用 的 辅助 开发 工具 ,而 应 该 是 数据 挖掘 概念 与 特定 领 
域 商业 人 逻辑 相 结 合 的 纵向 解决 方案 (Vertical Solution ) 。 

分 析 目 前 的 研究 和 应 用 现状 ,数据 挖掘 在 如 下 几 个 方面 需要 重点 开展 工作 。 
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1. 数据 挖掘 技术 与 特定 商业 逻辑 的 平滑 集成 问题 

谈 到 数据 挖掘 和 知识 发 现 技术 ,人 们 大 多 引用 ”啤酒 与 尿布 的 例子 。 事 实 上 ,目前 关于 
数据 挖掘 的 确 很 难 找到 这 样 的 其 他 经 典 例子 。 数 据 挖掘 和 知识 发 现 技 术 的 广阔 应 用 前 景 ， 
需要 有 效 和 显著 的 应 用 实例 来 证 明 。 因 此 包括 领域 知识 对 行业 或 企业 知识 挖掘 的 约束 与 指 
导 、 商 业 多 辑 有 机 地 和 肉 和 人 数据 挖掘 过 程 等 关键 课题 ,将 是 数据 挖掘 与 知识 发 现 技术 研究 和 应 
用 的 重要 方向 。 

2. 数据 挖掘 技术 与 特定 数据 存储 类 型 的 适应 问题 

不 同 的 数据 存储 方式 会 影响 数据 挖掘 的 具体 实现 机 制 .目标 定位 技术 有 效 性 等 。 指 望 
一 种 通用 的 应 用 模式 结合 所 有 的 数据 存储 方式 发 现 有 效 知 识 是 不 现实 的 。 因 此 ,针对 不 同 
数据 存储 类 型 的 特点 ,进行 针对 性 研究 是 目前 流行 而 且 也 是 将 来 一 段 时 间 所 必须 面 对 的 
问题 。 

3. 大 型 数据 的 选择 与 规格 化 问题 

数据 挖掘 技术 是 面向 大 型 数据 集 的 ,而 且 源 数据 库 中 的 数据 是 动态 变化 的 ,数据 存在 噪 
声 ,、 不 确定 性 、 信 息 丢失 ,信息 元 余数 据 分 布 稀疏 等 问题 ,因此 挖掘 前 的 预 处 理工 作 是 必需 
的 。 数 据 挖掘 技术 又 是 面向 特定 商业 目标 的 ,大 量 的 数据 需要 选择 性 地 利用 ,因此 针对 特定 
数据 挖掘 问题 进行 数据 选择 .针对 特定 挖掘 方法 进行 数据 规格 化 是 无 法 回避 的 问题 。 

4. 数据 挖掘 系统 的 构架 与 交互 式 挖掘 技术 

虽然 经 过 多 年 的 探索 ,数据 挖 气 系 统 的 基本 架构 和 过 程 已 经 趋 于 明朗 化 ,但 是 受 应 用 领 
域 ,挖掘 数据 类 型 以 及 知识 表达 模式 等 的 影响 ,在 具体 的 实现 机 制 、 技 术 路 线 以 及 各 阶段 台 
部 件 (如 数据 清洗 .知识 形成 模式 评估 等 ) 的 功能 定位 等 方面 仍 需 细 化 和 深入 研究 。 由 于 数 
据 挖掘 是 在 大 量 的 元 数据 集中 发 现 潜在 的 .事先 并 不 知道 的 知识 ,因此 和 用 户 进行 交互 式 探 
索性 挖掘 是 必然 的 。 这 种 交互 可 能 发 生 在 数据 挖掘 的 各 个 不 同 阶段 ,从 不 同 角度 或 不 同 程 
度 进行 交互 。 所 以 良好 的 交互 式 挖掘 (Interaction Mining) 也 是 数据 挖掘 系统 成 功 的 前 提 。 

5. 数据 挖掘 语言 与 系统 的 可 视 化 问题 

对 OLTP 应 用 来 说 ,结构 化 查询 语言 SQL 已 经 得 到 充分 的 发 展 , 并 成 为 支持 数据 库 应 
用 的 重要 基石 。 但 是 ,对 于 数据 挖掘 技术 而 言 , 由 于 诞生 的 时 间 较 晚 ,加 之 它 相 比 OLTP 应 
用 的 复杂 性 ,开发 相应 的 数据 挖掘 操作 语言 仍然 是 一 件 极 富 挑战 性 的 工作 。 可 视 化 要 求 已 
经 成 为 目前 信息 处 理 系统 的 必 不 可 少 的 技术 ,对 于 一 个 数据 挖掘 系统 来 说 , 它 更 是 重要 的 。 
可 视 化 挖掘 除了 要 和 良好 的 交互 式 技术 结合 外 ,还 必须 在 挖掘 结果 或 知识 模式 的 可 视 化 、 控 
掘 过 程 的 可 视 化 以 及 可 视 化 指导 用 户 挖掘 等 方面 进行 探索 和 实践 。 数 据 的 可 视 化 从 某 种 程 
度 来 说 起 到 了 推动 人 们 主动 进行 知识 发 现 的 作用 ,因为 它 可 以 使 人 们 从 对 数据 挖掘 的 神秘 
感 变 成 可 以 直观 理解 的 知识 和 形象 的 过 程 。 

6. 数据 挖掘 理论 与 算法 研究 

经 过 十 几 年 的 研究 ,数据 挖掘 已 经 在 继承 和 发 展 相关 基础 学 科 ( 如 机 器 学 习 、 统 计 学 等 ) 
已 有 成 果 方面 取得 了 可 喜 的 进步 ,探索 出 了 许多 独 具 特 色 的 理论 体系 。 但 是 ,这 绝 不 意味 着 
挖掘 理论 的 探索 已 经 结束 ,恰恰 相反 , 它 留 给 了 研究 者 丰富 的 理论 课题 。 一 方面 ,在 这 些 大 
的 理论 框架 下 有 许多 面向 实际 应 用 目标 的 挖掘 理论 等 待 探 索 和 创新 ; 另 一 方面 , 随 着 数据 
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挖掘 技术 本 身 和 相关 技术 的 发 展 , 新 的 挖掘 理论 的 诞生 是 必然 的 ,而 且 可 能 对 特定 的 应 用 产 
生 推 动作 用 。 新 理论 的 发 展 必然 促进 新 的 挖掘 算法 的 产生 ,这 些 算法 可 能 扩展 挖掘 的 有 效 
性 。 如 针对 数据 挖掘 的 某 些 阶段 . 某 些 数据 类 型 .大 容量 元 数据 集 等 更 有 效 ; 可 能 提高 挖掘 
的 精度 或 效率 ; 可 能 融合 特定 的 应 用 目标 ,如 CRM 电子 商务 等 。 因 此 ,对 数据 挖掘 理 论 和 
算法 的 探讨 将 是 长 期 而 艰巨 的 任务 。 特 别 是 , 像 定 性 定量 转换 、 不 确定 性 推理 等 一 些 根 本 性 
的 问题 还 没有 得 到 很 好 的 解决 ,同时 需要 针对 大 容量 数据 的 有 效 和 高 效 算法 。 从 上 面 的 叙 
述 可 以 看 出 ,数据 挖掘 研究 和 探索 的 内 容 是 极其 丰富 和 具有 挑战 性 的 。 


3.2 数据 挖掘 所 要 解决 的 问题 


前 面 提 到 ,面临 新 的 数据 集 带 来 的 问题 时 ,传统 的 数据 分 析 技术 常常 遇 到 实际 困难 。 下 
面 是 一 些 具体 的 问题 , 它 引 发 了 人 们 对 数据 挖掘 开展 研究 。 

(1) 可 伸缩 。 由 于 数据 产生 和 收集 技术 的 进步 , 数 吉 字 节 、 数 太 字 节 甚至 数 拍 字 节 @ 的 
数据 集 越 来 越 普 遍 。 如 果 数 据 挖掘 算法 要 处 理 这 些 海量 数据 集 , 则 算法 必须 是 可 伸缩 的 。 
许多 数据 挖掘 算法 使 用 特殊 的 搜索 策略 处 理 指数 级 搜索 问题 。 为 实现 可 伸缩 可 能 还 需要 实 
现 新 的 数据 结构 ,才能 以 有 效 的 方式 访问 每 个 记录 。 例 如 , 当 要 处 理 的 数据 不 能 放 进 内 存 
时 ,可 能 需要 非 内 存 算 法 。 使 用 抽样 技术 或 开发 并 行 和 分 布 算法 也 可 以 提高 可 伸缩 程度 。 

(2) 高 维 性 。 目 前 ,经 常会 遇 到 具有 成 百 上 千 属 性 的 数据 集 , 而 不 是 几 十 年 前 常见 的 只 
具有 少量 属性 的 数据 集 。 在 生物 信息 领域 , 微 阵列 技 术 的 进步 已 经 产生 了 涉及 数 千 特征 的 
基因 表达 数据 。 具 有 时 间或 空间 分 量 的 数据 集 也 经 常 具 有 很 高 的 维度 。 例 如 ,考虑 包含 不 
同 地 区 的 温度 测量 结果 的 数据 集 , 如 果 在 一 个 相当 长 的 时 间 周 期 内 反复 地 测量 , 则 维度 ( 特 
征 数 ) 的 增长 正比 于 测量 的 次 数 。 为 低 维 数据 开发 的 传统 的 数据 分 析 技 术 通常 不 能 很 好 地 
处 理 这 样 的 高 维 数据 。 此 外 ,对 于 某 些 数据 分 析 算 法 , 随 着 维度 (特征 数 ) 的 增加 ,计算 复杂 
性 迅速 增加 。 

(3) 异种 数据 和 复杂 数据 。 通 常 ,传统 的 数据 分 析 方 法 只 处 理 包 含 相同 类 型 属性 的 数 
据 集 ,或 者 是 连续 的 ,或 者 是 分 类 的 。 随 着 数据 挖 气 在 商务 科学、 医学 和 其 他 领域 的 作用 越 
来 越 大 , 越 来 越 需要 能 够 处 理 异 种 属性 的 技术 。 近 年 来 ,已 经 出 现 了 更 复杂 的 数据 对 象 。 这 
些 非 传统 的 数据 类 型 的 例子 包括 含有 半 结 构 化 文本 和 超 链接 的 Web 页 面 集 、 具 有 序列 和 三 
维 结构 的 DNA 数据、 包含 地 球 表面 不 同位 置 上 的 时 间 序 列 测量 值 ( 温 度 、 气 压 等 ) 的 气象 数 
据 。 为 挖掘 这 种 复杂 对 象 而 开发 的 技术 应 当 考 虑 数据 中 的 联系 ,如 时 间 和 空间 的 自 相关 性 、 
图 的 连通 性 . 半 结 构 化 文本 和 XML 文档 中 元 素 之 间 的 父子 联系 。 

(4) 数据 的 所 有 权 与 分 布 。 有 些 时 候 , 需 要 分 析 的 数据 并 非 存放 在 一 个 站 点 ,或 归属 一 
个 机 构 ,而 是 地 理 上 分 布 在 属于 多 个 机 构 的 资源 中 。 这 就 需要 开发 分 布 式 数据 挖掘 技术 。 
分 布 式 数 据 挖掘 算法 面临 的 主要 挑战 包括 : 如 何 降低 执行 分 布 式 计算 所 需 的 通信 和 量 ; 
加 如 何 有 效 地 统一 从 多 个 资源 得 到 数据 挖掘 结果 ; 如何 处理 数据 安全 性 问题 。 

(5) 非 传统 的 分 析 。 传 统 的 统计 方法 基于 一 种 假设 -检验 模式 , 即 提出 一 种 假设 ,设计 


@ Gigabytes、Terabytes、Petabytes 分 别 是 109B,1012B,1015B。 
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实验 来 收集 数据 ,然后 针对 假设 分 析 数 据 。 但 是 ,这 一 过 程 费时 费力 。 当 前 的 数据 分 析 任 务 
常常 需要 产生 和 评估 数 千 种 假设 ,因此 需要 自动 地 产生 和 评估 假设 ,这 促使 人 们 开发 了 一 些 
数据 挖掘 技术 。 此 外 ,数据 挖掘 所 分 析 的 数据 集 通常 不 是 精心 设计 的 实验 的 结果 ,并 且 它 们 
通常 代表 数据 的 时 机 性 样本 ,而 不 是 随机 样本 。 而 且 , 这 些 数据 集 通常 涉及 非 传 统 的 数据 类 
型 和 数据 分 布 。 


3.3 数据 挖掘 的 定义 


数据 挖掘 是 一 门 涉及 面 很 广 的 交叉 学 科 , 融 合 了 模式 识别 数据库、 统计 学 .机 器 学 习 、 
粗糙 集 .模糊 数学 和 神经 网 络 等 多 个 领域 的 理论 ,因此 可 从 多 个 视角 来 看 待 它 。 

从 技术 角度 来 看 ,数据 挖掘 是 从 大 量 的 .不 完全 的 、 有 噪声 的 ,模糊 的 、 随 机 的 实际 数据 
中 ,提取 隐 含 在 其 中 的 人们 不 知道 的 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 这 个 定义 有 如 
下 含义 : 数据 源 是 真实 的 .大量 的 ,并 且 可 能 是 有 噪声 的 ; 所 发 现 的 信息 是 用 户 感 兴趣 的 知 
识 ; 发 现 的 知识 是 用 户 能 够 理解 并 使 用 的 。 在 数据 挖掘 中 ,原始 数据 可 以 是 结构 化 的 ,如 关 
系数 据 库 中 的 数据 ; 也 可 以 是 半 结 构 化 的 ,如 文本 、 图 形 和 图 像 数 据 ; 甚至 可 以 是 分 布 在 网 
络 上 的 异 构 数 据 。 挖 掘 出 来 的 知识 可 用 于 查询 优化 、 信 息 管理 ,决策 支持 和 过 程控 制 等 ,还 
可 用 于 数据 自身 的 维护 。 数 据 挖 掘 把 人 们 对 数据 的 应 用 从 低层 次 的 简单 查询 ,提升 到 从 数 
据 库 中 挖掘 知识 ,从 而 提供 决策 支持 。 

从 商业 角度 来 看 ,数据 挖掘 就 是 按 企业 的 既定 业务 目标 ,对 大 量 的 企业 数据 进行 探索 和 
分 析 , 以 揭示 隐藏 的 ,未 知 的 规律 性 并 将 其 模式 化 ,从 而 支持 商业 决策 活动 。 数 据 挖掘 技术 
只 有 面向 特定 的 商业 领域 才 有 应 用 价值 .是 一 种 新 的 商业 信息 处 理 模 式 , 其 主要 特点 是 对 商 
业 数 据 库 中 的 大 量 业 务 数据 进行 抽取 转换 、 分 析 和 处 理 , 从 中 提取 出 辅助 商业 决策 的 关键 
信息 和 知识 。 

从 以 上 定义 ,可 以 得 到 数据 挖掘 具有 以 下 特点 。 

(1) 数据 量 巨大 。 如 何 高 效 地 存 取 大 量 数据 ,如 何在 特定 应 用 领域 中 找 出 特定 的 高 效 
率 算法 ,以 及 如 何 选取 数据 子 集 ,都 成 为 数据 挖掘 工作 者 要 重点 考虑 的 问题 。 

(2) 动态 性 。 许 多 领域 的 行业 数据 所 包含 的 规律 时 效 性 很 强 , 随 着 时 间 和 环境 的 变化 
规律 也 在 改变 。 这 种 数据 和 知识 的 迅速 变化 ,就 要 求 数 据 挖掘 能 快速 做 出 相应 的 反应 以 及 
时 提供 决策 支持 。 

(3) 适用 性 。 数 据 挖掘 的 规律 适用 于 一 部 分 数据 .但 不 可 能 适用 于 全 部 数据 ,这 是 因为 
外 部 的 环境 不 可 能 完全 相同 。 

(4) 系统 性 。 数 据 挖掘 不 是 一 个 简单 算法 ,而 是 一 个 较为 复杂 的 系统 , 它 需要 业务 理 
解数 据 理解 .数据 准备 、 建 模 、 评 估 等 一 系列 步骤 ,是 一 个 不 断 循环 和 不 断 完善 的 系统 工程 。 


3.4 数据 挖掘 的 过 程 


在 数据 挖掘 中 ,被 研究 的 业务 对 象 是 整个 过 程 的 基础 , 它 驱 动 了 整个 数据 挖掘 过 程 ,也 
是 检验 最 后 结果 和 指引 分 析 人 员 完 成 数据 挖掘 的 依据 和 顾问 。 图 3-2 中 各 步骤 是 按 一 定 顺 
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序 完 成 的 ,当然 整个 过 程 中 还 会 存在 步骤 间 的 反馈 。 数 据 挖掘 的 过 程 并 不 是 自动 的 , 绝 大 多 
数 的 工作 需要 人 工 完成 。 在 整个 数据 挖掘 过 程 中 ,60% 的 时 间 用 在 数据 准备 上 ,这 说 明了 数 
据 挖掘 对 数据 的 严格 要 求 ,而 后 续 挖掘 工作 仅 占 总 工作 量 的 10%。 


问题 准备 主题 建立 模型 |“| ”操作 


定义 | 上 =| 数据 - 确定 ”|__| 读 入 数据 并 挖掘 | ,| | 


图 3-2 数据 挖掘 的 一 般 流 程 


从 大 量 的 ,不 完全 的 ,有 噪声 的 、 模 糊 的 甚至 随机 的 实际 应 用 数据 中 提取 出 隐 含 在 其 中 
的 非常 有 用 的 信息 ,模式 (规则 ) 和 趋势 的 数据 挖掘 过 程 主要 包括 6 个 步骤 ,各 步骤 的 大 体内 
容 如 下 。 

(1) 定义 问题 。 首 先 明确 定义 将 要 解决 的 问题 。 数 据 挖掘 者 要 熟悉 所 研究 行业 的 数据 
和 业务 问题 ,缺乏 这 些 ,就 不 能 够 充分 发 挥 数据 挖掘 的 价值 ,很 难得 到 正确 的 结果 。 模 型 的 
建立 取决 于 问题 的 定义 ,有 时 相似 的 问题 ,所 要 求 的 模型 几乎 完全 不 同 。 

清晰 地 定义 出 业务 问题 , 认 清 数据 挖掘 的 目的 ,是 数据 挖掘 的 重要 一 步 。 挖 掘 的 最 后 结 
果 是 不 可 预测 的 ,但 要 探索 的 问题 应 是 有 预见 的 ,为 了 数据 挖掘 而 数据 挖掘 则 带 有 盲目 性 ， 
是 不 会 成 功 的 。 

(2) 数据 准备 。 有 些 人 将 数据 挖掘 看 作 是 一 个 不 可 思议 的 过 程 ,认为 它 吞 进 的 是 原始 
数据 ,吐出 来 的 是 “钻石 ”>。 数 据 准 备 正 是 这 个 过 程 的 核心 。 这 一 阶段 又 可 分 为 三 个 子 步 又， 
数据 集成 ,数据 选择 ,数据 预 处 理 。 数 据 集成 将 多 文件 或 多 数据 库 运 行 环境 中 的 数据 进行 合 
并 处 理 , 解 决 语义 模糊 性 ,处 理 数据 中 的 遗漏 和 清洗 脏 数 据 等 。 数 据 选择 的 目的 是 辨别 出 需 
要 分 析 的 数据 集合 ,缩小 处 理 范 围 , 提 高 数据 挖掘 的 质量 ,因此 需要 搜索 所 有 与 业务 对 象 有 
关 的 内 部 和 外 部 数据 信息 ,并 从 中 选择 出 适用 于 数据 挖掘 应 用 的 数据 。 而 数据 预 处 理 则 是 
为 了 克服 目前 数据 挖掘 工具 的 局 限 性 ,提高 数据 质量 ,同时 将 数据 转换 成 一 个 适用 于 特定 挖 
掘 算法 的 分 析 模 型 。 建 立 一 个 真正 适合 挖掘 算法 的 分 析 模型 是 数据 挖掘 成 功 的 关键 。 

(3) 确定 主题 。 数 据 挖掘 是 一 个 经 常 需要 回溯 的 过 程 ,因此 没有 必要 在 数据 完全 准备 
好 之 后 才 开始 进行 数据 挖掘 。 随 着 时 间 的 推移 ,你 所 使 用 的 数据 .你 对 它们 分 组 的 方式 以 及 
数据 清洗 的 效果 等 都 将 改变 ,并 有 可 能 改进 整个 模型 。 这 一 步 会 涉及 了 解 研 究 主题 的 局 限 
性 ,选择 待 完成 的 良好 研究 主题 ,确定 待 研究 的 合适 的 数据 元 素 , 以 及 决定 如 何 进行 数据 操 
作 等 。 

(4) 读 入 数据 并 建立 模型 。 一 旦 确定 要 输入 的 数据 之 后 ,接着 就 是 要 用 数据 挖掘 工具 
读 人 数据 并 从 中 构造 出 一 个 模型 。 根 据 所 选用 的 数据 挖掘 工具 的 不 同 , 所 构造 出 的 数据 模 
型 也 会 有 很 大 的 差别 。 

(5) 挖掘 操作 。 依 照 上 述 准备 工作 ,利用 选 好 的 数据 挖掘 工具 在 数据 中 查找 ,这 个 搜索 
过 程 可 以 由 系统 自动 执行 , 自 底 向 上 搜索 原始 事实 以 发 现 它们 之 间 的 某 种 联系 ,也 可 以 加 入 
用 户 交互 过 程 ,由 分 析 人 员 主 动 发 问 ,从 上 到 下 地 找寻 以 验证 假设 的 正确 性 。 数 据 挖掘 的 搜 
索 过 程 需 要 反复 多 次 ,通过 评价 数据 挖掘 结果 不 断 调整 数据 挖掘 的 精度 ,以 达到 发 现 知识 的 
目的 。 

(6) 结果 表达 和 和 解释。 根据 最 终 用户 的 决策 目标 对 提取 出 的 信息 进行 分 析 , 把 最 有 价 
值 的 信息 区 分 出 来 ,并 通过 决策 支持 工具 提交 给 决策 者 。 


47 


48 


商务 智能 与 数据 挖掘 ( 第 2 版 ) 


数据 挖掘 过 程 的 分 步 实现 ,不 同 的 阶段 会 需要 有 不 同 专长 的 人 员 ,他 们 大 体 可 以 分 为 以 
下 三 类 。 

(1) 业务 分 析 人 员 : 要 求 精通 业务 ,能够 解释 业务 对 象 ,并 能 根据 各 业务 对 象 确定 出 用 
于 数据 定义 和 挖掘 算法 的 业务 需求 。 

(2) 数据 分 析 人 员 : 要 求 精通 数据 分 析 技 术 ,对 统计 学 有 较 熟 练 的 掌握 ,有 能 力 把 业务 
需求 转化 为 数据 挖掘 的 各 步 操作 ,并 为 每 步 操 作 选 择 合适 的 技术 。 

(3) 数据 管理 人 员 : 要 求 精通 数据 管理 技术 ,并 能 从 数据 库 或 数据 仓库 中 搜集 数据 。 

从 上 可 见 ,数据 挖掘 是 一 个 多 种 专业 人 员 相 互 配合 的 工作 过 程 , 也 是 一 个 在 资金 上 和 技 
术 上 高 投入 的 过 程 。 这 一 过 程 要 反复 进行 ,在 反复 的 过 程 中 ,不 断 地 趋 近 事物 的 本 质 , 不 断 
地 优选 问题 的 解决 方案 。 

20 世纪 90 年 代 后 期 ,当时 的 数据 挖掘 市 场 是 年 轻 而 不 成 熟 的 ,但 是 这 个 市 场 显 示 出 了 
爆炸 式 的 增长 。 三 个 在 这 方面 经 验 丰 富 的 公司 Daimler Chrysler、SPSS、NCR 发 起 并 建立 了 
一 个 社团 ,目的 是 建立 数据 挖掘 方法 和 过 程 的 标准 。 在 获得 了 EC(European Commission) 
的 资助 后 ,他 们 开始 实现 他 们 的 目标 。 为 了 征集 业界 广泛 的 意见 ,共享 知识 ,他 们 创建 了 
Special Interest Group (SIG)。SIG 组 织 开 发 并 提炼 出 CRISP-DM (Cross-Industry 
Standard Process for Data Mining) ,如 图 3-3 所 示 ,. 同 时 在 Mercedes-Benz 和 OHRA( 保 险 
领域 企业 ) 中 进行 了 大 规模 数据 挖掘 项 目的 实际 试用 。SIG 还 将 CRISP-DM 和 商业 数据 挖 
掘 工具 集成 起 来 。SIG 组 织 目前 在 伦敦 .纽约 ,布鲁塞尔 已 经 发 展 到 二 百 多 个 成 员 。 

当前 CRISP-DM 提供 了 一 个 数据 挖掘 生命 周期 的 全 面 评述 ,包括 项 目的 相应 周期 \ 它 
们 各 自 的 任务 和 任务 之 间 的 关系 。 在 这 个 描述 层 中 ,识别 出 所 有 关系 是 不 可 能 的 。 所 有 数 
据 挖掘 任务 之 间 关系 的 存在 依赖 于 用 户 的 目的 .背景 和 兴趣 ,最 重要 的 还 有 数据 。SIG 组 织 
已 经 发 布 了 CRISP-DM Version 1.0 Process Guide and User Manual 的 电子 版 ,可 以 免费 
使 用 。 

一 个 数据 挖掘 项 目的 生命 周期 包含 6 个 阶段 。 这 6 个 阶段 的 顺序 是 不 固定 的 。 我 们 经 
常 需要 前 后 调整 这 些 阶 段 。 这 依赖 于 每 个 阶段 中 特定 任务 的 产 出 物 是 否 是 下 一 个 阶段 必需 
的 输入 。 图 3-3 中 的 箭头 指出 了 最 重要 的 和 依赖 度 高 的 阶段 关系 。 

图 3-3 中 的 外 圈 象 征 数 据 挖 掘 自 身 的 循环 本 质 一 一 在 一 个 解决 方案 发 布 之 后 一 个 数据 
挖掘 的 过 程 才 可 以 继续 。 在 这 个 过 程 中 得 到 的 知识 可 以 触发 新 的 .经常 是 更 聚焦 的 商业 问 
题 。 后 续 的 过 程 可 以 从 前 一 个 过 程 中 得 到 益处 。 

(1) 业务 理解 。 最 初 的 阶段 集中 在 理解 项 目 目 标 和 从 业务 的 角度 理解 需求 ,同时 将 这 
个 知识 转化 为 数据 挖掘 问题 的 定义 和 完成 目标 的 初步 计划 。 将 知识 转化 为 定义 和 计划 。 

(2) 数据 理解 。 数 据 理解 阶段 从 初始 的 数据 收集 开始 ,通过 一 些 活 动 的 处 理 , 以 熟悉 数 
据 , 识 别 数据 的 质量 问题 ,首次 发 现 数据 的 内 部 属性 ,或 是 探究 引起 兴趣 的 子 集 以 形成 隐 含 
信息 的 假设 。 

(3) 数据 准备 。 数 据 准备 阶段 包括 从 未 处 理 数 据 中 构造 最 终 数据 集 的 所 有 活动 。 这 些 
数据 将 是 模型 工具 的 输入 值 。 这 个 阶段 的 任务 有 可 能 执行 多 次 ,没有 任何 规定 的 顺序 。 任 
务 包 括 表 记录 和 属性 的 选择 ,模型 工具 的 转换 和 数据 的 清洗 。 

(4) 建立 模型 。 在 这 个 阶段 ,可 以 选择 和 应 用 不 同 的 模型 技术 ,模型 参数 被 调整 到 最 佳 
的 数值 。 有 些 技术 可 以 解决 一 类 相同 的 数据 挖掘 问题 。 有 些 技术 在 数据 形成 上 有 特殊 要 
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. 数据 建立 模型 
模型 评估 We 


图 3-3 CRISP-DM 的 组 成 架构 


求 , 因 此 需要 经 常 跳 回 到 数据 准备 阶段 。 

(5) 模型 评估 。 到 项 目的 这 个 阶段 ,就 已 经 从 数据 分 析 的 角度 建立 了 一 个 高 质量 显示 
的 模型 。 在 开始 最 后 部 署 模型 之 前 ,重要 的 事情 是 彻底 地 评估 模型 ,检查 构造 模型 的 步骤 ， 
确保 模型 可 以 完成 业务 目标 。 这 个 阶段 的 关键 任务 是 确定 是 否 有 重要 业务 问题 没有 被 充分 
地 考虑 。 在 这 个 阶段 结束 后 ,必须 达成 一 个 数据 挖掘 结果 使 用 的 决定 。 

(6) 方案 部 署 。 通 常 , 模 型 的 创建 不 是 项 目的 结束 。 模 型 的 作用 是 从 数据 中 找到 知识 ， 
获得 知识 ,并 以 便于 用 户 使 用 的 方式 重新 组 织 和 展现 。 根 据 需 求 , 这 个 阶段 可 以 产生 简单 的 
报告 ,或 实现 一 个 比较 复杂 的 、 可 重复 的 数据 挖掘 过 程 。 在 很 多 案例 中 ,这 个 阶段 是 由 客户 
而 不 是 数据 分 析 人 员 承 担 部 署 的 工作 。 


3.5 数据 挖掘 系统 


3.5.1 数据 挖掘 系统 的 分 类 


数据 挖掘 源 于 多 个 学 科 , 因 此 数据 挖掘 研究 产生 了 大 量 的 、 各 种 不 同类 型 的 数据 挖掘 系 
统 。 这 样 ,就 需要 对 数据 挖掘 系统 进行 分 类 。 这 种 分 类 可 以 帮助 用 户 区 分 数据 挖掘 系统 , 确 
定 最 适合 其 需求 的 数据 挖掘 系统 。 根 据 不 同 的 标准 ,数据 挖掘 系统 可 以 进行 以 下 分 类 。 

1. 根据 数据 挖掘 的 数据 库 类 型 分 类 

由 于 数据 库 系统 本 身 可 以 根据 不 同 的 标准 分 类 .因此 ,数据 挖掘 系统 可 以 进行 相应 的 分 
类 。 根 据 数据 模型 分 类 ,可 以 分 为 关系 的 .事务 的 、 面 向 对 象 的 \ 数 据 仓 库 的 数据 挖掘 系统 ， 
根据 所 处 理 数据 的 特定 类 型 分 类 ,可 以 分 为 空间 的 .时 间 序 列 的 \ 文 本 的 、 多 媒体 的 或 Web 
的 数据 挖掘 系统 。 
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2. 根据 挖掘 的 知识 类 型 分 类 


该 类 数据 挖掘 系统 依据 所 挖掘 出 的 规则 而 分 类 ,这 些 规则 有 分 类 规则 、 特 征 规则 、 聚 类 
分 析 、 关 联 规则 、 孤 立 点 分 析 、 时 间 序 列 模式 分 析 等 。 

3. 根据 挖掘 方法 分 类 

根据 所 采用 的 挖掘 方法 的 不 同 , 分 为 面向 数据 库 的 方法 、 机 器 学 习 方法 、 统 计 学 方法 、 模 
式 识别 方法 .可视化 方法 等 。 具 体 地 ,可 以 分 为 模糊 集 方法 、 神 经 网 络 方法 、 统 计 方 法 .粗糙 
集 方法 ,决策 树 ,生物 智能 方法 等 。 

4. 根据 数据 挖掘 应 用 分 类 

不 同 的 应 用 需要 有 针对 该 应 用 的 特别 有 效 的 方法 ,因此 数据 挖掘 系统 还 可 以 根据 其 应 
用 领域 来 分 类 ,从 而 出 现 了 诸如 股票 市 场 数据 挖掘 系统 .DNA 序列 数据 挖掘 系统 .电信 行业 
数据 挖掘 系统 、 旅 游 数据 挖掘 系统 .医药 销售 数据 挖掘 系 统 、 保 险 行业 数据 挖掘 系统 等 。 


3.5.2 数据 挖掘 系统 的 发 展 


一 般 来 讲 , 开 发 数据 挖掘 系统 是 一 个 由 多 功能 部 件 组 成 的 、 多 种 类 技术 相互 合作 的 系统 
性 研发 过 程 。 粗 略 地 说 ,数据 挖掘 系统 的 发 展 可 分 为 三 个 阶段 : 独立 数据 挖掘 软件 (1995 
年 之 前 ) ,横向 数据 挖掘 工具 集 (1995 年 起 ) ,纵向 数据 挖掘 解决 方案 (1999 年 起 ) 。 

(1) 独立 数据 挖掘 软件 。 独 立 的 数据 挖掘 软件 出 现 于 数据 挖掘 技术 发 展 的 早期 ,研究 
人 员 每 开发 出 一 种 新 型 的 数据 挖掘 算法 ,就 会 形成 一 个 相应 的 软件 原型 ,这些 原 型 系统 会 不 
断 尝 试 和 不 断 完善 。 这 类 软件 要 求 用 户 对 具体 的 算法 和 数据 挖掘 技术 有 相当 的 了 解 , 还 需 
要 负责 大 量 的 数据 预 处 理工 作 。 

(2) 横向 数据 挖掘 工具 集 。 随 着 数据 挖掘 和 知识 发 现 技术 的 不 断 发 展 和 研究 的 不 断 深 
和 ,人们 逐渐 认识 到 随 着 数据 量 的 增加 和 应 用 领域 的 拓宽 而 涌现 的 一 些 新 间 题 ,诸如 : 现实 
领域 中 的 问题 多 种 多 样 , 单 靠 少 数 几 个 数据 挖掘 算法 难以 解决 : 有 待 挖掘 的 数据 通常 不 符 
合算 法 要 求 ,需要 有 数据 清洗 、 转 换 等 数据 预 处 理 操 作 配 合 , 才 能 得 出 有 价值 的 模型 。 因 此 
需要 大 量 多 领域 ,多 方法 ,多 技术 的 结合 ,由 此 积累 了 许多 数据 挖掘 模型 和 算法 ,从 而 出 现 了 
一 批 集成 化 的 数据 挖掘 工具 集 。 从 1995 年 开始 ,软件 开发 商 提供 了 “工具 集 ” 的 数据 挖掘 软 
件 。 由 于 这 类 工具 并 非 面向 特定 的 应 用 ,而 是 通用 的 算法 集合 ,所 以 称 之 为 横向 数据 挖掘 工 
具 。 典 型 的 数据 挖掘 工具 有 SPSS Clementine、 IBM Intelligent Miner、SAS Enterprise 
Miner Oracle Darwin、SGI MineSet 等 。 

(3) 纵向 数据 挖掘 解决 方案 。 随 着 横向 数据 挖掘 工具 的 使 用 日 益 广泛 ,人 们 发 现 只 
熟悉 数据 挖掘 算法 的 专家 才能 使 用 这 类 工具 。 如 果 对 数据 挖掘 技术 及 算法 不 了 解 , 就 难以 
开发 出 好 的 应 用 系统 。 从 1999 年 开始 ,大 量 的 数据 挖掘 工具 研制 者 开始 提供 纵向 的 数据 挖 
掘 解 决 方案 。 这 种 方案 的 核心 是 针对 特定 的 应 用 提供 完整 的 数据 挖掘 解决 方案 ,优点 是 挖 
掘 目标 明确 .针对 性 强 .挖掘 模型 选择 方便 .系统 研制 快捷 。 由 于 和 特定 的 商业 领域 相 联系 ， 
因此 数据 挖掘 技术 的 应 用 成 为 企业 信息 系统 的 一 部 分 。 

根据 以 上 所 述 ,按照 数据 挖掘 系统 的 特征 和 发 展 趋势 ,可 将 数据 挖掘 系统 归纳 为 4 代 。 
4 代数 据 挖掘 系统 的 特征 、 所 采用 的 数据 挖掘 算法 数量 、 集 成 的 功能 ,分 布 计算 模型 的 方式 
和 数据 挖掘 模型 等 方面 如 下 叙述 。 
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(1) 第 一 代数 据 挖掘 系统 。 在 第 一 代数 据 挖掘 系统 中 ,数据 挖掘 通常 作为 一 个 独立 的 
应 用 ,系统 仅 支持 一 个 或 少数 几 个 数据 挖掘 算法 ,这 些 算 法 被 用 来 挖掘 向 量 数据 ,这 些 数据 
模型 在 挖掘 时 一 次 性 地 调和 内 存 进行 处 理 , 通 常 在 单 台 机 器 上 运行 。 

(2) 第 二 代数 据 挖掘 系统 。 第 二 代数 据 挖掘 系统 支持 数据 库 和 数据 仓库 的 集成 ,同时 
它们 具有 高 性 能 的 接口 ,具有 很 好 的 可 扩展 性 。 第 二 代数 据 挖掘 系统 通过 支持 数据 挖掘 模 
式 和 数据 挖掘 查询 语言 来 增加 系统 的 灵活 性 ,能 够 挖掘 大 数据 集 ,更 复杂 的 数据 集 以 及 高 维 
数据 。 

(3) 第 三 代数 据 挖掘 系统 。 第 三 代数 据 挖掘 系统 能 够 挖掘 Internet/Extranet 的 分 布 式 
和 高 度 异 质 的 数据 ,并 且 能 够 有 效 地 将 其 同 操作 系统 集成 。 这 一 代数 据 挖掘 系统 的 关键 技 
术 之 一 是 对 建立 在 异 质 系 统 上 的 多 个 预言 模型 以 及 管理 这 些 预 言 模型 的 元 数据 提供 支持 。 

(4) 第 四 代数 据 挖掘 系统 。 第 四 代数 据 挖 掘 系统 能 够 采用 多 个 算法 挖掘 嵌入 式 系 统 、 
移动 系统 和 普遍 存在 的 计算 设备 所 产生 的 各 种 类 型 的 数据 ,使 系统 的 集成 度 更 高 ,计算 方式 
和 数据 模型 更 加 复杂 。 


3.6 数据 挖掘 的 功能 和 方法 


3.6.1 数据 挖掘 的 功能 


数据 挖掘 是 一 门 交叉 学 科 , 融 合 了 数据 库 \ 人 工 智 能 .机 器 学 习 、 统 计 学 等 多 个 领域 的 理 
论 和 技术 。 数 据 挖 掘 的 主要 功能 有 以 下 几 点 。 

1. 关联 分 析 

关联 分 析 的 目的 是 找 出 数据 集中 属性 值 之 间 的 联系 ,形成 关联 规则 。 为 了 发 现 有 意义 
的 关联 规则 ,需要 给 定 两 个 阔 值 : 最 小 支持 度 和 最 小 可 信和 度 。 在 这 个 意义 上 ,挖掘 出 的 关联 
规则 就 必须 满足 最 小 支持 度 和 最 小 可 信和 度 。 关 联 规则 是 在 1993 年 由 R. Agrawal 等 人 提出 
的 ,然后 扩展 到 从 关系 数据 库 、 空 间 数据 库 和 多 媒体 数据 库 中 挖掘 关联 关系 ,并 且 要 求 挖掘 
出 通用 的 、 多 层次 的 .用户 感 兴趣 的 关联 规则 。 随 着 应 用 和 技术 的 发 展 , 几 年 来 对 挖掘 关联 
规则 的 技术 提出 了 更 新 的 要 求 , 如 在 线 挖掘 、 提 高 挖掘 大 型 数据 库 的 计算 效率 、 减 小 I/O 开 
销 、 挖 气 定 量 型 关联 规则 等 。 

2. 概念 描述 

一 个 概念 通常 是 对 一 个 包含 大 量 数据 的 数据 集 总 体 情况 的 描述 。 概 念 描述 就 是 通过 对 
与 某 类 对 象 关联 数据 的 汇总 ,分 析 和 比较 ,对 此 类 对 象 的 内 涵 进 行 描 述 ,并 概括 这 类 对 象 的 
有 关 特 征 。 这 种 描述 是 汇总 的 、 简 洁 的 和 精确 的 ,当然 也 是 非常 有 用 的 。 概 念 描述 分 为 特征 
性 描述 和 区 别 性 描述 。 前 者 描述 某 类 对 象 的 共同 特征 ,后 者 描述 不 同类 对 象 之 间 的 区 别 。 
生成 一 个 类 的 特征 性 描述 只 涉及 该 类 对 象 中 所 有 对 象 的 共性 ; 生成 区 别 性 描述 则 涉及 目标 
类 和 对 比 类 中 对 象 的 共性 。 

3. 数据 总 结 

数据 总 结 的 目的 是 对 数据 进行 浓缩 ,给 出 数据 集 的 紧凑 描述 。 数 据 挖掘 是 从 数据 泛 化 
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的 角度 来 研究 数据 总 结 的 。 数 据 泛 化 是 一 种 把 数据 库 中 的 相关 数据 从 低层 次 抽象 到 高 层次 
的 过 程 。 用户 有 时 希望 可 以 从 高 层次 的 视图 上 浏览 数据 ,因而 需要 对 数据 进行 不 同 层次 上 
的 泛 化 以 适应 各 种 查询 及 处 理 需求 。 目 前 ,数据 泛 化 的 主要 技术 有 面向 属性 的 归纳 技术 和 
多 维 数据 分 析 方法 。 

4. 分 类 分 析 

类 刻画 了 一 类 事物 ,这 类 事物 具有 某 种 意义 上 的 共同 特征 ,并 明显 与 不 同类 事物 相 区 
别 。 分 类 分 析 就 是 通过 分 析 示 例 数据 库 中 的 数据 ,为 每 个 类 别 做 出 准确 的 描述 或 建立 分 析 
模型 或 挖掘 出 分 类 规则 ,然后 用 这 个 分 类 规则 对 其 他 数据 库 中 的 记录 进行 分 类 。 从 机 器 学 
习 的 观点 来 看 ,分 类 技术 是 一 种 有 指导 的 学 习 , 即 每 个 训练 样本 的 数据 对 象 已 经 有 类 标识 ， 
通过 学 习 可 以 形成 与 表达 数据 对 象 与 类 标识 间 对 应 的 知识 。 目 前 已 有 多 种 分 类 分 析 模 型 得 
到 应 用 ,主要 有 神经 网 络 方法 .Bayesian 分 类 决策 树 .统计 分 类 方法 .粗糙 集 分 类 .SVM 方 
法 、 覆 盖 算 法 等 。 在 数据 挖掘 中 这 些 方法 均 遇 到 数据 规模 的 问题 , 即 大 多 数 方法 能 有 效 解 决 
小 规模 数据 库 的 数据 挖掘 问题 ,但 当 应 用 于 大 数据 量 的 数据 库 时 ,会 出 现 性 能 恶化 .精度 下 
降 的 问题 。 

5. 聚 类 分 析 

聚 类 是 把 一 组 个 体 按照 相似 性 归 成 若干 类 别 , 它 的 目的 是 使 得 属于 同一 类 别 的 个 体 之 
间 的 差别 尽 可 能 小 ,而 不 同类 别 上 的 个 体 间 的 差别 尽 可 能 大 。 聚 类 结束 后 ,每 类 中 的 数据 由 
唯一 的 标志 进行 标识 ,各 类 数据 的 共同 特征 也 被 提取 出 来 ,用 于 对 该 特征 进行 描述 。 提 高 聚 
类 效率 ` 减 少时 间 和 空间 开销 ,以 及 如 何在 高 维 空间 进行 有 效 数 据 聚 类 是 聚 类 研究 中 的 主要 
问题 。 聚 类 分 析 的 方法 很 多 ,如 k- 平 均 算法 、.k- 中 心 点 算法 、 基 于 凝聚 的 层次 聚 类 和 基于 分 
裂 的 层次 聚 类 等 。 采 用 不 同 的 聚 类 方法 ,对 于 相同 的 记录 集合 可 能 有 不 同 的 划分 结果 。 

分 类 和 聚 类 技术 不 同 ,前 者 总 是 在 特定 的 类 标识 下 寻求 新 元 素 属于 哪个 类 ,而 后 者 则 是 
通过 对 数据 的 分 析 比 较 生 成 新 的 类 标识 。 

6. 时 间 序 列 分 析 

时 间 序 列 分 析 中 的 相似 模式 发 现 分 为 相似 模式 聚 类 和 相似 模式 搜索 两 种 。 相 似 模式 聚 
类 是 将 时 间 序 列 数据 分 隔 成 等 长 或 不 等 长 的 子 序列 ,然后 用 模式 匹配 的 方法 进行 聚 类 , 找 出 
序列 中 所 有 相似 的 模式 。 相 似 模式 搜索 是 指 给 定 一 个 陌生 子 序列 ,在 时 间 序 列 中 搜索 所 有 
与 给 定子 序列 模式 最 接近 的 数据 子 序列 。 时 间 序 列 分 析 主 要 应 用 于 天 气 数据 预报 、 金 融 市 
场 数 据 分 析 、 医 疗 诊断 分 析 、 科 学 工程 数据 以 及 通信 信号 、 雷 达 信号 数据 处 理 等 方面 。 

7. 偏差 分 析 

偏差 分 析 包 括 分 类 中 的 反常 实例 、 例 外 模式 、 观 测 结果 对 期 望 值 的 偏离 以 及 量 值 随时 间 
的 变化 等 ,基本 思想 就 是 对 数据 库 中 的 偏差 数据 进行 检测 和 分 析 , 检 测 出 数据 库 中 的 一 些 异 
常 记录 ,它们 在 某 些 特征 上 与 数据 库 中 的 大 部 分 数据 有 着 显著 不 同 。 通 过 发 现 异 常 , 可 以 引 
起 人 们 对 特殊 情况 的 格外 关注 。 异 常 模式 包含 : 出 现在 其 他 模式 边缘 的 奇异 点 ; 不 满足 常 
规 类 的 异常 实例 ; 与 父 类 或 兄弟 类 不 同 的 类 ; 观察 值 与 模型 推测 出 的 期 望 值 有 明显 差异 的 
例子 等 。 偏 差分 析 方 法 主要 有 基于 统计 的 方法 .基于 距离 的 方法 和 基于 偏 移 的 方法 。 扳 点 
数据 的 发 现 可 以 应 用 在 信用 卡 使 用 ,金融 欺诈 防范 、 医 学 数据 分 析 等 领域 中 。 
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8. 建 模 

通过 数据 挖掘 ,建造 出 描述 一 种 状态 或 活动 的 数学 或 物理 模型 。 机 器 学 习 中 的 数据 控 
掘 就 是 对 一 些 自然 现象 进行 建 模 ,重新 发 现 科学 定律 ,如 BACON 系统 。 基 本 的 思路 是 : 采 
用 数据 驱动 ,通过 启发 式 约束 搜索 ,依赖 于 理论 数据 项 ,应 用 一 些 通用 的 发 现 方法 , 找 出 概念 
之 间 的 内 在 联系 并 表示 出 来 ,从 而 探索 出 理论 模型 。 


3.6.2 数据 挖掘 的 方法 


由 于 数据 挖掘 应 用 领域 十 分 广泛 ,因此 产生 了 多 种 数据 挖掘 的 算法 和 方法 ,如 决策 树 方 
法 模糊 集 方法 .神经 网 络 方法 .粗糙 集 方法 、 统 计 分 析 方 法 .可 视 化 方法 等 。 有 时 对 于 某 一 
数据 库 很 有 效 的 算法 对 另 一 数据 库 有 可 能 完全 无 效 , 因 此 ,应 针对 具体 的 挖掘 目标 和 应 用 对 
象 而 设计 不 同 的 算法 。 目 前 具有 代表 性 的 方法 有 以 下 几 类 。 

1. 决策 树 方法 

决策 树 表示 形式 简单 ,所 发 现 的 模型 也 易于 为 用 户 理解 ,是 挖掘 分 类 知识 中 最 流行 的 方 
法 之 一 。 它 利用 信息 论 中 的 信息 炉 作 为 结 点 分 类 的 标准 ,建立 决策 树 的 一 个 结 点 ,再 根据 属 
性 当前 的 值 域 建立 结 点 的 分 支 。 决 策 树 的 建立 是 一 个 递归 过 程 。 在 知识 表示 方面 具有 直 
观 ,易于 理解 等 优点 。 最 早 的 决策 树 算法 是 1D3 方法 , 它 对 较 大 的 数据 集 处 理 效 果 较 好 。 在 
ID3 的 基础 上 ,Quinlan 又 提出 了 改进 的 C4.5 算法 。 

2. 模糊 集 方法 

模糊 集 方法 是 利用 模糊 集合 理论 对 实际 问题 进行 模糊 评判 .模糊 决策 模糊 模式 识别 和 
模糊 聚 类 分 析 ,是 一 种 应 用 较 早 的 处 理 不 确定 性 问题 的 有 效 方法 。 系 统 的 复杂 性 越 高 ,模糊 
性 越 强 。 模 糊 集 理论 是 用 隶属 度 来 刻画 模糊 事物 的 亦 此 亦 彼 性 的 。 

在 很 多 场合 ,数据 挖掘 任务 所 面临 的 数据 具有 同样 的 模糊 性 和 不 精确 性 ,因此 把 模糊 数 
学 理论 应 用 于 数据 挖掘 则 顺理成章 。 使 用 模糊 集 方法 可 以 对 已 挖掘 的 大 量 的 关联 规则 的 有 
用 性 .兴趣 度 等 进行 评判 ,也 可 用 于 分 类 . 聚 类 等 数据 挖掘 任务 。 

3. 神经 网 络 方法 

神经 网 络 是 指 一 类 计算 模型 , 它 模拟 人 脑 神 经 元 结构 及 某 些 工作 机 制 ,利用 大 量 的 简单 
计算 单元 连 成 网 络 来 实现 大 规模 并 行 计算 , 它 有 并 行 处 理 分布 存 储 、 高 度 容错 、 自 组 织 等 诸 
多 优点 ,因此 它 是 数据 挖掘 中 的 重要 方法 。 近 年 来 人 们 研究 从 训练 后 的 神经 网 络 中 提取 规 
则 的 方法 ,从 而 推动 了 神经 网 络 在 数据 挖掘 分 类 问题 中 的 应 用 。 神 经 网 络 的 知识 体现 在 网 
络 连接 的 权 值 上 , 它 是 一 个 分 布 式 矩 阵 结 构 ; 神经 网 络 的 学 习 体 现在 神经 网 络 权 值 的 逐步 
调整 上 。 在 数据 挖掘 中 应 用 最 多 的 是 前 馈 式 网 络 。 它 以 感知 器 、 反 向 传播 模型 .函数 型 网 络 
为 代表 ,可 用 于 预测 、 模 式 识别 等 方面 。 

4. 粗糙 集 方法 

粗糙 集 是 一 种 刻画 具有 信息 不 完整 ,不 确定 系统 的 数学 工具 ,能 有 效 地 分 析 和 处 理 不 精 
确 \ 不 一 致 ,不 完整 等 各 种 不 完备 信息 ,并 从 中 发 现 隐 含 的 知识 ,揭示 潜在 的 规律 。 粗 糙 集 的 
核心 概念 是 不 可 区 分 关系 以 及 上 近似 `. 下 近似 等 。 对 于 给 定 的 一 个 信息 表 , 粗 糙 集 的 方法 是 
通过 等 价 类 的 划分 寻找 信息 表 中 的 核 属 性 和 约 简 集 ,然后 从 约 简 后 的 信息 表 中 导出 分 类 / 决 
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策 规则 。 对 信息 表 进 行 属 性 约 简 , 获 得 和 原 信息 表 相 同 信息 分 布 的 子 表 ,提高 了 数据 挖掘 的 
效率 ,并 且 使 得 获得 的 知识 更 为 简单 .易于 理解 。 属 性 约 简 是 数据 挖掘 中 数据 预 处 理 阶段 的 
重要 环节 。 

粗糙 集 理 论 具 有 良好 的 数学 性 质 和 可 解释 性 ,但 在 应 用 于 实际 数据 时 ,还 需要 解决 复杂 
度 高 .数据 中 的 噪声 等 问题 。 

5. 统计 分 析 方法 

统计 方法 是 从 事物 的 外 在 数量 上 的 表现 去 推断 该 事物 可 能 的 规律 性 ,统计 分 析 的 本 质 
是 以 数据 为 对 象 , 从 中 获取 规律 ,为 人 类 认识 客观 事物 ,并 对 其 发 展 趋势 进行 预测 ,决策 和 控 
制 提 供 有 效 的 依据 。 统 计 分 析 方 法 在 数据 挖掘 中 有 许多 应 用 ,理论 也 最 为 成 熟 。 常 见 的 统 
计 方 法 有 回归 分 析 、 判 别 分 析 ,差异 分 析 、 聚 类 分 析 .描述 统计 、 相 关 分 析 和 主 成 分 分 析 等 。 

6. 可 视 化 方法 

可 视 化 是 把 数据 .信息 和 知识 转化 为 可 视 的 表示 形式 的 过 程 ,其 内 涵 是 将 数据 通过 图 形 
化 、 地 理化 真实 而 形象 地 表现 出 来 并 且 找 出 数据 背后 蕴含 的 信息 ,其 本 质 是 从 抽象 数据 到 可 
视 结构 的 映射 。 

可 视 化 技术 是 20 世纪 80 年 代 后 期 提出 的 一 个 全 新 的 研究 领域 。 通 过 丰富 的 图 形 表现 
能 力 ,可 视 化 技术 能 够 准确 地 表达 原始 数据 .挖掘 过 程 、 控 掘 结 果 , 使 用 户 可 以 深入 地 理解 问 
题 并 选择 更 适当 的 数据 挖掘 算法 ,达到 深入 剖析 数据 的 目的 。 其 特点 为 : 信息 可 视 化 的 焦 
点 在 于 信息 ; 信息 的 数据 量 很 大 ; 信息 的 来 源 多 种 多 样 等 。 可 视 化 数据 挖掘 拓宽 了 传统 的 
图 表 功 能 ,使 用 户 对 数据 的 剖析 更 清楚 。 

7. 生物 智能 算法 

生物 智能 算法 在 优化 与 搜索 应 用 中 前 景 广阔 ,用 于 数据 挖掘 中 , 常 把 任务 表示 成 优化 或 
搜索 问题 ,利用 生物 智能 算法 可 以 找到 最 优 解 或 次 优 解 。 生 物 智 能 算法 主要 包括 以 下 几 个 
方面 。 

(1) 遗传 算法 。 遗 传 算法 是 由 John Holland 于 1975 年 提出 的 一 种 有 效 地 解决 最 优化 
问题 的 方法 ,是 一 种 基于 生物 进化 理论 的 技术 。 其 基本 观点 是 “ 适 者 生存 ”, 用 于 数据 挖掘 
中 , 则 常 把 任务 表示 为 一 种 搜索 问题 ,利用 遗传 算法 强大 的 搜索 能 力 找到 最 优 解 ,是 一 种 仿 
生 全 局 优化 方法 。 遗 传 算法 作用 于 一 个 由 问题 的 多 个 潜在 解 ( 个 体 ) 组 成 的 群体 上 ,并 且 群 
体 中 的 每 个 个 体 都 由 一 个 编码 表示 ,同时 每 个 个 体 均 需 依据 问题 的 目标 函数 而 被 赋予 一 个 
适应 值 。 遗 传 算法 是 多 学 科 结 合 与 渗透 的 产物 , 它 广泛 应 用 在 计算 机 科学 .工程 技术 和 社会 
科学 等 领域 。 

(2) 蚁 群 算法 。 蚁 群 算 法 是 由 意大利 学 者 Dorigo M. 等 人 在 20 世纪 90 年 代 初 首先 提 
出 来 的 。 它 是 一 种 新 型 仿生 类 进化 算法 ,是 继 模拟 退火 .遗传 算法 .禁忌 搜索 等 之 后 的 又 一 
启发 式 智 能 优化 算法 。 蚂 蚁 有 能 力 在 没有 任何 提示 的 情况 下 找到 从 划 穴 到 食物 源 的 最 短路 
径 , 并 且 能 随 环境 的 变化 ,适应 性 地 搜索 新 的 路 径 , 产 生 新 的 选择 。 蚁 群 算法 成 功 地 应 用 于 
求解 TSP、 二 次 分 配 、 图 着 色 .车 辆 调度 .集成 电路 设计 及 通信 网 络 负载 等 问题 。 

(3) 粒子 群 优化 算法 。 粒 子 群 优化 (PSO) 算 法 是 一 种 基于 群体 智能 的 随机 优化 算法 ， 
源 于 对 鸟 群 或 鱼 群 群体 运动 行为 的 研究 。 由 于 PSO 算法 概念 简单 .易于 实现 .调整 参数 少 ， 
现 已 广泛 地 应 用 于 许多 工程 领域 。 然 而 ,粒子 群 优 化 算法 具有 易于 陷入 局 部 极 值 点 、 进 化 后 
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期 收敛 慢 、 精 度 较 差 的 缺点 ,为 了 克服 粒子 群 优化 算法 的 缺点 ,目前 出 现 了 大 量 的 改进 粒子 

(4) 人 工 鱼 群 算法 。 人 工 鱼 群 算法 (AFSA) 是 李 晓 舌 等 人 于 2002 年 提出 的 一 种 基于 动 
物 自治 的 优化 方法 ,是 集群 智能 思想 的 一 个 具体 应 用 。 它 的 主要 特点 是 不 需要 了 解 问题 的 
特殊 信息 ,只 需要 对 问题 的 解 进行 优 劣 的 比较 ,通过 各 人 工 鱼 个 体 的 疯 食 、 聚 群 和 追尾 等 局 
部 寻 优 行为 ,最 终 在 群体 中 使 全 局 最 优 解 突显 出 来 。 该 算法 具有 良好 的 求解 全 局 极 值 的 能 
力 , 收 敛 速度 较 快 。 


3.7 数据 挖掘 的 典型 应 用 领域 


数据 挖掘 技术 源 于 商业 的 直接 需求 ,并 在 各 种 领域 都 有 广泛 的 使 用 价值 。 数 据 挖掘 已 
在 金融 .零售 医药 ,通信 、 电 子 工程 .航空 旅馆 等 具有 大 量 数据 和 深度 分 析 需 求 、 易 产生 大 
量 数字 信息 的 领域 得 到 广泛 使 用 ,并 带 来 了 巨大 的 社会 效益 和 经 济 效益 。 它 既 可 以 检验 行 
业内 长 期 形成 的 知识 模式 ,也 能 够 发 现 隐藏 的 新 规律 。 将 数据 挖掘 用 于 企业 信息 管理 ,虽然 
面临 着 很 大 的 挑战 和 许多 蝇 待 解决 的 问题 ,但 有 充分 的 理由 相信 ,这 些 问 题 将 随 着 各 应 用 领 
域 的 信息 化 推进 逐步 得 到 解决 ,数据 挖掘 的 应 用 前 景 十 分 乐观 。 

1. 金融 领域 的 应 用 


在 金融 方面 ,银行 和 金融 机 构 往 往 持 有 大 量 关于 客户 的 、 各 种 服务 的 以 及 交易 事务 的 数 
据 , 并 且 这 些 数 据 通常 比较 完整 ,可靠 和 高 质量 ,这 大 大 方便 了 系统 化 的 数据 分 析 和 数据 挖 
气 。 在 银行 业 中 ,数据 挖掘 被 用 来 建 模 、 预 测 , 识 别 伪造 信用 卡 ,估计 风险 ,进行 趋势 分 析 、 效 
益 分 析 ` 顾 客 分 析 等 。 在 此 领域 应 用 的 数据 挖掘 ,可 以 进行 贷款 偿付 预测 和 客户 信用 政策 分 
析 以 调整 贷款 发 放 政策 ,降低 经 营 风险 。 信 用 卡 公 司 可 以 应 用 数据 挖掘 中 的 关联 规则 来 识 
别 欺诈 。 股 票 交 易 所 和 银行 也 有 这 方面 的 需要 。 对 目标 客户 群 进行 分 类 及 聚 类 ,以 识别 不 
同 的 客户 群 ,为 不 同 的 客户 提供 更 好 的 服务 ,以 推动 市 场 。 此 外 ,还 可 以 运用 数据 分 析 工 具 
找 出 异常 模式 ,以 侦破 洗钱 和 其 他 金融 犯罪 活动 。 智 能 数据 挖掘 利用 了 广泛 的 高 质量 的 机 
器 学 习 算法 ,能 够 在 应 付 大量 数 据 的 同时 保证 理想 的 响应 时 间 ,使 得 市 场 分 析 、 风 险 预 测 、 欺 
诈 管理 、 客 户 关系 管理 和 竞争 优势 分 析 等 应 用 成 为 可 能 。 

2. 网 络 金融 交易 应 用 

从 网 络 金融 角度 来 看 ,网 络 金融 是 指 通过 互联 网 进行 的 金融 交易 。 这 种 交易 具有 速度 
快 .交易 量 大 、 交 易 次 数 多 、 交 易 人 所 在 地 分 散 的 特点 。 这 种 基于 生产 力 水 平 的 加 速 常常 超 
出 生产 力 本 身 的 发 展 速度 ,使 人 类 进入 脆弱 的 虚拟 经 济 时 代 。 在 股市 交易 中 ,人 们 的 兴趣 在 
于 预测 股市 起 伏 ,并且 各 种 各 样 的 算法 都 曾经 被 使 用 过 。 有 的 算法 在 一 种 情况 下 有 效 或 在 
一 段 时 间 内 有 效 , 有 的 算法 更 能 捕捉 转瞬 即 逝 的 个 股 买 /卖点 或 在 众多 股票 中 选 出 应 买卖 的 
股票 。 金 融 时 序数 据 是 一 种 常见 的 数据 结构 ,在 这 一 方面 ,已 有 不 少 学 者 研究 了 对 其 进行 挖 
掘 的 一 般 性 问题 或 框架 。 对 股市 进行 动态 数据 挖掘 ,可 以 随时 掌握 由 大 量 数据 所 反映 的 金 
融 市 场 暗流 。 此 外 ,还 可 以 将 监管 搜索 范围 完全 扩大 到 一 般 的 网 页 上 ,借助 一 定 的 文字 分 析 
技术 提高 准确 率 。 

另 一 方面 的 应 用 是 研究 股市 炒作 的 快速 检测 算法 和 技术 。 互 联网 的 出 现 和 使 用 也 只 是 
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近 十 年 的 事 ,而 标志 着 金融 领域 重要 突破 的 中 国 股市 的 产生 和 发 展 也 正好 在 这 十 余年 。 电 
子 交易 每 天 产生 的 海量 数据 已 超出 人 工 处 理 的 能 力 , 但 这 正 使 得 应 用 计算 机 算法 进行 智能 
自动 监控 成 为 可 能 。 从 证 监 会 的 角度 看 ,可 以 通过 各 种 交易 数据 发 现 异常 现象 和 相应 的 操 
作 ,识别 出 哪些 是 合法 炒作 ,哪些 是 非法 炒作 。 

3. 零售 业务 应 用 


在 零售 业 方 面 ,计算 机 使 用 率 越 来 越 高 ,大 型 超市 大 多 配备 了 完善 的 计算 机 及 数据 库 系 
统 。 零 售 业 积累 的 大 量 销 售 数据 ,顾客 购买 历史 记录 货物 进 出 与 服务 记录 等 数据 中 真正 有 
价值 的 信息 是 哪些 ? 这 些 信 息 之 间 有 哪些 关联 ?回答 这 些 问 题 就 需要 对 大 量 的 数据 进行 深 
层 分 析 , 从 而 获得 有 利于 商业 运作 、 提 高 竞争 力 的 信息 。 数 据 挖掘 技术 有 助 于 识别 顾客 购买 
行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 的 顾客 保持 力 和 满意 程度 ,降低 零 
售 业 成 本 。 

通常 企业 所 掌握 的 客户 信息 特别 是 以 前 购买 行为 的 信息 中 ,可 能 正 包含 着 这 个 客户 决 
定 他 下 一 个 购买 行为 的 关键 信息 ,甚至 是 决定 性 因素 。 这 个 时 候 的 数据 挖掘 的 作用 就 体现 
为 它 可 以 帮助 企业 寻找 到 那些 影响 顾客 购买 行为 的 信息 和 因素 。 对 这 些 丰 富 数据 资源 的 挖 
掘 ,可 有 助 于 识别 顾客 购买 行为 ,发 现 顾客 购买 模式 和 趋势 ,改进 服务 质量 ,取得 更 高 的 顾客 
满意 程度 ,提高 销量 。 

还 有 一 个 问题 就 是 研究 超市 顾客 的 购买 行为 ,这 是 一 种 典型 的 时 间 序 列 挖 掘 问题 。 在 
零售 服务 业 中 ,直接 给 潜在 的 顾客 寄 广告 是 一 种 常见 的 办 法 。 通 过 分 析 人 们 的 购买 模式 , 佑 
计 他 们 的 收入 和 孩子 数目 ,作为 潜在 的 市 场 信息 。 在 庞大 的 数据 集中 找 出 哪些 人 适合 寄 广 
告 或 折扣 券 ,哪些 人 会 喜欢 哪 一 类 的 折扣 券 , 哪 些 人 应 给 予 的 折扣 多 一 些 ,哪些 产品 摆 在 一 
起 会 比分 别 放 在 各 自 的 类 中 卖 得 更 快 更 多 ,这 都 成 了 数据 挖掘 的 任务 。 

零售 业 中 数据 挖掘 的 成 功 应 用 包括 : 加 销售 、 顾 客 . 产 品 `. 时 间 和 地 区 的 多 维 分 析 ; 
加 对 促销 活动 有 效 性 的 分 析 , 以 此 提高 企业 利润 ; 加 对 顾客 忠诚 度 的 分 析 , 以 留 住 老 顾客 ， 
吸引 新 顾客 ; 图 挖掘 关联 信息 ,以 形成 购买 推荐 和 商品 参照 ,以 帮助 顾客 选择 商品 ,提高 
销量 。 

4. 医疗 电信 和 领域 应 用 

在 医疗 领域 中 ,成 堆 的 电子 数据 可 能 已 放 在 那儿 很 多 年 了 ,比如 病人 ,症状 ,发 病 时 间 、 
发 病 频 率 以 及 当时 的 用 药 种 类 ,剂量 .住院 时 间 等 。 在 药物 实验 中 ,可 能 有 很 多 种 不 同 的 组 
合 ,每 种 若 均 加 以 实验 则 成 本 太 大 ,决策 树 方法 可 以 用 来 大 大 减少 实验 次 数 , 这 种 方法 已 经 
被 许多 大 的 制药 公司 所 采用 。 生 物 医学 的 大 量 研究 大 都 集中 在 DNA 数据 的 分 析 上 ,人 类 
大 约 有 10* 个 基因 ,一 个 基因 通常 由 成 百 个 核 苷 按 一 定 序列 组 成 , 核 背 按 不 同 的 次 序 可 以 组 
成 不 同 的 基因 ,几乎 不 计 其 数 。 因 此 ,数据 挖掘 成 为 DNA 分 析 中 的 强大 工具 ,如 对 DNA 序 
列 间 的 相似 搜索 和 比较 ; 应 用 关联 分 析 对 同时 出 现 的 基因 序列 的 识别 ; 应 用 路 径 分 析 发 现 
在 疾病 不 同 阶段 的 致 病 基 因 等 。 
电信 业已 经 迅速 从 单纯 的 提供 市 话 和 长 话 服务 演变 为 综合 电信 服务 ,如 语音 、 传 真 . 寻 
呼 .移动 电话 、 图 形 .电子 邮件 、 互 联网 接 人 服务 等 。 电 信 市 场 的 竞争 也 变 得 越 来 越 激烈 和 全 
方位 化 。 目 前 ,不 管 是 住宅 电话 还 是 移动 电话 ,每 天 的 使 用 量 很 大 。 对 电话 公司 来 讲 , 如 何 
充分 使 用 这 些 数据 为 自己 赢得 更 多 的 利润 就 成 了 主要 问题 。 利 用 数据 挖掘 来 帮助 理解 商业 
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行为 .对 电信 数据 多 维 分 析 、 检 测 非典 型 的 使 用 模式 以 寻找 潜在 的 次 用 者 、 分 析 用 户 一 系列 
的 电信 服务 使 用 模式 来 改进 服务 .根据 地 域 分 布 疏 密 性 找 出 最 急需 建立 网 点 的 位 置 、 确 定 电 
信 模 式 .捕捉 次 用 行为 .更 好 地 利用 资源 和 提高 服务 质量 ,是 非常 必要 的 。 借 助 数据 挖掘 ,可 
以 减少 很 多 损失 ,保住 顾客 。 

数据 挖掘 在 电信 业 的 应 用 包括 : 对 电信 数据 的 多 维 分 析 ; @ 检 测 非 典型 的 使 用 模式 
以 寻找 潜在 的 盗用 者 ; 回 分 析 用 户 一 系列 的 电信 服务 使 用 模式 来 改进 服务 ; @@ 搅 拌 分 
析 等 。 


3.8 数据 挖掘 的 发 展 趋势 


数据 挖掘 是 一 门 综合 性 学 科 ,一 个 多 学 科 交 叉 的 研究 领域 。 它 融合 了 数据 库 技术 .人 工 
智能 .机 器 学 习 、 统 计 学 .知识 工程 信息 检索 ,高 性 能 计算 及 数据 可 视 化 等 许多 学 科 的 概念 、 
理论 .方法 和 技术 。 经 过 20 年 的 研究 和 实践 ,数据 挖掘 已 经 吸收 了 许多 学 科 的 研究 成 果 ,成 
为 独 具 特 色 的 研究 分 支 。 数 据 挖掘 的 概念 已 经 被 广泛 接受 ,并 吸引 了 一 大 批 学 者 投入 到 数 
据 挖掘 的 研究 领域 。 

经 历 了 20 年 的 发 展 ,包括 统计 学 、 人 工 智能 等 在 内 的 许多 理论 和 技术 成 果 已 经 被 成 功 
应 用 到 数据 挖 气 中。 数据 挖掘 的 理论 体系 是 由 数据 库 、 人 工 智能 ,数理 统计 、 计 算 机 科学 以 
及 其 他 方面 的 学 者 在 探讨 性 的 研究 中 创立 的 。 这 些 理论 本 身 的 发 展 和 应 用 为 数据 挖掘 提供 
了 有 价值 的 理论 和 应 用 积累 。 

随 着 数据 挖掘 在 学 术 界 和 工业 界 的 影响 越 来 越 大 ,数据 挖掘 的 研究 向 着 更 深入 和 实用 
的 技术 方向 发 展 。 从 事 数 据 挖掘 研究 的 人 员 主 要 在 大 学 、 研 究 机 构 , 也 有 部 分 在 企业 或 公 
司 。 所 涉及 的 研究 领域 很 多 ,研究 集中 在 学 习 算法 的 研究 .数据 挖掘 的 实际 应 用 以 及 有 关 数 
据 挖掘 的 理论 等 方面 。 

分 析 目 前 的 研究 和 应 用 现状 ,数据 挖掘 在 如 下 几 个 方面 需要 重点 开展 工作 。 

(1) 数据 挖掘 理论 与 算法 的 研究 。 数 据 挖掘 继承 和 发 展 了 相关 基础 学 科 已 有 的 成 果 ， 
探索 出 许多 独 具 特 色 的 理论 体系 。 但 是 ,这 绝 不 意味 着 数据 挖掘 理论 的 探索 已 经 结束 ,相反 
地 , 它 留 给 了 研究 者 丰富 的 理论 课题 。 一 方面 ,在 这 些 大 的 理论 框架 下 有 许多 面向 实际 应 用 
目标 的 挖掘 理论 等 待 探 索 和 创新 ; 另 一 方面 , 随 着 数据 挖掘 技术 本 身 和 相关 技术 的 发 展 , 新 
的 挖掘 理论 的 诞生 是 必然 的 ,而 且 可 能 对 特定 的 应 用 产生 推动 作用 。 新 理论 的 发 展 必 然 促 
进 新 的 挖掘 算法 的 产生 ,这些 算法 可 能 扩展 挖掘 的 有 效 性 ,如 数据 挖掘 的 某 些 阶段 、 某 些 数 
据 类 型 ,大 容量 源 数据 集 等 ; 可 能 提高 挖掘 的 精度 或 效率 ; 可 能 融合 特定 的 应 用 目标 ,如 
CRM., 电 子 商 务 等 。 因 此 ,对 数据 挖掘 理论 和 算法 的 探讨 将 是 长 期 而 艰巨 的 任务 。 

(2) 复杂 数据 类 型 的 挖掘 问题 。 许 多 数据 集中 包含 着 复杂 的 数据 类 型 ,如 关系 型 数据 、 
半 结 构 化 数据 , 非 结 构 化 数据 ,复杂 的 数据 对 象 . 超 文本 数据 和 多 媒体 数据 .空间 和 时 间 数 
据 、 视 频数 据 、 声 音 数据 等 ,局 域 网 和 广域网 上 连接 了 许多 数据 源 并 形成 了 巨大 的 、 分 布 式 
的 ,分 层 的 和 异 构 的 数据 库 。 这 些 复杂 数据 类 型 的 数据 集 , 对 数据 挖掘 提出 了 新 的 挑战 。 目 
前 ,数据 挖掘 主要 处 理 的 是 数值 型 数据 和 分 类 数据 ,针对 非 结构 化 数据 ,时空 数据 .多 媒体 数 
据 的 数据 挖掘 仍 是 迫切 需要 解决 的 问题 。 

(3) 数据 挖掘 语言 与 数据 挖掘 的 可 视 化 。 标 准 的 数据 挖掘 语言 或 其 他 方面 的 标准 化 工 
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作 将 有 助 于 数据 挖掘 的 系统 化 开发 ,改进 多 个 数据 挖掘 系统 和 功能 间 的 相互 操作 。 可 视 化 
对 于 一 个 数据 挖掘 系统 来 说 非常 重要 ,除了 要 和 良好 的 交互 性 技术 结合 外 ,还 要 在 挖掘 结果 
的 可 视 化 ,挖掘 过 程 的 可 视 化 以 及 可 视 化 指导 用 户 挖 气 等 方面 进行 探索 和 研究 。 数 据 挖掘 
语言 和 可 视 化 将 促进 数据 挖掘 在 企业 和 社会 中 的 应 用 。 

(4) 数据 挖掘 的 性 能 问题 。 数 据 挖掘 的 性 能 包括 数据 挖掘 算法 的 有 效 性 ` 可 伸缩 性 和 
并 行 处 理 能 力 。 数 据 挖掘 算法 的 效率 和 可 伸缩 性 是 指 为 了 有 效 地 从 数据 库 中 抽取 有 用 的 知 
识 ,数据 挖掘 算法 必须 是 有 效 的 和 可 收缩 的 。 也 就 是 说 ,一 个 数据 挖掘 算法 在 大 型 数据 库 中 
的 运行 时 间 必 须 是 可 预计 的 和 可 接受 的 。 许 多 现 有 的 数据 挖掘 算法 往往 适合 于 常 驻 内 存 
的 ,小 数据 集 的 数据 挖掘 ,而 大 型 数据 库 中 存放 了 TB 级 的 数据 ,所 有 数据 无 法 同时 导入 内 
存 。 所 以 ,从 数据 库 的 观点 来 看 ,有 效 性 和 可 伸缩 性 是 实现 数据 挖掘 系 统 的 关键 问题 。 

(5) 数据 挖掘 系统 的 架构 。 虽 然 经 过 多 年 的 探索 ,数据 挖掘 系统 的 基本 架构 和 过 程 已 
经 趋 于 明朗 ,但 是 受 应 用 领域 ,挖掘 数据 类 型 以 及 知识 表达 模式 等 的 影响 ,在 具体 的 实现 机 
制 、 技 术 路 线 以 及 各 阶段 或 部 件 (如 数据 清洗 .知识 形成 模式 评估 等 ) 的 功能 定位 等 方面 仍 
需 细 化 和 深入 研究 。 目 前 新 颖 的 数据 挖掘 框架 日 益 受 到 重视 ,如 云 模型 和 数据 场 理论 、. 双 库 
协同 机 制 . 基 于 多 智能 体 的 主动 型 数据 挖掘 框架 等 。 

(6) 交互 式 数 据 挖掘 技术 。 由 于 数据 挖掘 是 在 大 量 的 元 数据 集中 发 现 潜在 的 .事先 并 
不 知道 的 知识 ,因此 和 用 户 交互 式 地 进行 探索 性 挖掘 是 必然 的 。 这 种 交互 可 能 发 生 在 数据 
挖掘 的 各 个 不 同 阶段 ,从 不 同 角度 或 不 同 粒度 进行 交互 。 所 以 良好 的 交互 式 挖掘 也 是 数据 
挖掘 系统 成 功 的 前 提 。 

(7) 数据 挖掘 中 的 私有 性 问题 。 数 据 挖掘 可 能 会 导致 对 私有 权 的 入 侵 , 研 究 采 用 哪些 
措施 防止 暴露 敏感 信息 是 十 分 重要 的 。 当 从 不 同 角度 和 不 同 抽象 级 上 观察 数据 时 ,数据 安 
全 性 将 受到 严重 威胁 。 这 时 ,数据 保护 和 数据 挖掘 可 能 会 造成 一 些 矛 盾 的 结果 。 例 如 ,数据 
安全 性 保护 的 目标 可 能 与 从 不 同 角度 挖掘 多 层 知 识 的 需求 相 矛 盾 。 

(8) 数据 挖掘 中 的 不 确定 性 问题 。 不 确定 性 是 客观 事物 的 一 个 固有 特征 ,尤其 在 实际 
应 用 中 存在 大 量 不 确定 数据 。 不 确定 性 数据 挖掘 的 任务 就 是 发 现 隐 含 在 这 些 不 确定 数据 中 
的 知识 ,寻找 并 且 能 够 形式 化 地 表现 不 确定 性 的 规律 性 ,至 少 是 某 种 程度 的 规律 性 。 如 果 数 
据 挖掘 模型 不 能 准确 地 描述 或 者 没有 充分 考虑 数据 挖掘 对 象 的 不 确定 性 ,那么 由 数据 挖掘 
模型 得 到 的 结果 是 不 可 信 的 ,甚至 是 错误 的 。 

(9) 数据 挖掘 中 的 动态 性 问题 。 传 统 的 数据 挖掘 是 从 静态 的 数据 库 中 发 现 知识 ,许多 
实际 数据 库 系 统 中 的 数据 不 是 稳定 不 变 的 ,而 是 不 断 递增 和 变化 的 ,这 种 改变 可 能 使 先前 发 
现 的 模式 无 效 ,因此 发 现 知识 或 模式 也 需要 动态 维护 ,及 时 更 新 。 为 了 随时 获得 一 个 与 数据 
相关 的 有 效 模式 ,需要 以 一 定 的 不 多 的 时 间 间 隔 重复 同样 的 数据 分 析 过 程 。 由 于 某 些 数 据 
挖掘 过 程 的 高 成 本 ,产生 了 对 增 量 数据 挖掘 算法 的 研究 需求 。 开 发 增 量 式 数据 挖掘 算法 并 
与 数据 库 更 新 操作 相 结合 ,可 以 提高 数据 挖掘 的 效率 ,不 必 重 新 挖掘 整个 数据 库 。 因 此 , 需 
要 研究 新 的 动态 数据 挖掘 算法 来 应 对 以 增 量 形式 获得 的 新 数据 。 

数据 挖掘 将 成 为 对 工业 生产 万 至 日 常生 活 产生 重要 影响 的 技术 之 一 。 随 着 数据 挖掘 理 
论 与 方法 的 进一步 完善 和 计算 机 处 理 能 力 的 进一步 提高 ,数据 挖掘 无 论 在 理论 上 还 是 在 应 
用 上 都 将 得 到 更 大 的 发 展 ,数据 挖掘 将 产生 深远 的 社会 影响 。 一 方面 越 来 越 多 的 研究 人 员 
将 投入 到 数据 挖掘 的 研究 中 ; 另 一 方面 广大 的 用 户 也 将 逐渐 看 到 它 的 价值 。 随 着 众多 数据 
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挖掘 研究 人 员 对 于 技术 的 不 断 改 进 , 软 件 供应 商 所 提供 的 工具 的 不 断 完 善 ,数据 挖掘 技术 的 
应 用 和 开发 不 再 是 专业 人 士 的 专利 ,而 成 为 一 项 经 过 一 定 培训 就 可 以 为 人 们 所 利用 的 普及 
的 工具 。 同 时 更 多 的 软件 隐 含 地 把 数据 挖掘 作为 它们 的 功能 部 件 , 使 用 户 感觉 不 到 它们 的 
存在 ,这 种 隐 含 的 应 用 将 成 为 普通 大 众 执 行 数据 挖掘 的 重要 手段 。 


小 结 


本 章 介绍 了 数据 挖掘 的 起 源 及 其 发 展 . 定 义 ` 数 据 挖掘 所 要 解决 的 问题 ,数据 挖掘 的 过 
程 以 及 数据 挖掘 系统 。 数 据 挖掘 来 自 实际 领域 的 需求 ,其 理论 与 方法 涉及 多 个 学 科 知 识 的 
交叉 ,在 生产 实践 .商业 活动 中 获得 了 成 功 的 应 用 ,是 数据 智能 化 的 积极 推动 因素 。 目 前 ,各 
个 领域 都 对 数据 挖掘 提出 了 新 的 要 求 ,也 为 数据 挖掘 的 发 展 提供 了 强大 的 发 展 动力 。 


习题 


. 数据 挖掘 的 特点 是 什么 ”怎么 定义 数据 挖掘 ? 

. 数据 挖掘 的 过 程 是 什么 ? 

. 数据 挖掘 的 基本 功能 有 哪些 ? 谈 谈 你 对 其 的 理解 。 

. 数据 挖掘 方法 有 哪些 ? 谈 谈 你 对 其 的 理解 。 

. 上 网 查找 数据 挖掘 的 一 些 应 用 ,并 谈 谈 你 对 数据 挖掘 的 大 致 认识 。 


一 
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第 4 


世 


分 类 分 析 


分 类 任务 就 是 确定 对 象 属于 哪个 预定 义 的 目标 类 。 分 类 问题 是 一 个 普遍 存在 的 问题 ， 
有 许多 不 同 的 应 用 。 例 如 : 根据 电子 邮件 的 标题 和 内 容 检查 出 垃圾 邮件 ; 根据 核磁 共振 扫 
描 的 结果 区 分 肿瘤 是 恶性 的 还 是 良性 的 ; 根据 星系 的 形状 对 它们 进行 分 类 ,如 图 4-1 所 示 。 


(a) 螺旋 状 星系 M81 (b) 椭圆 星系 M60 和 旋涡 星系 NGC4647 


图 4-1 星系 的 分 类 


本 章 介绍 分 类 的 基本 概念 和 解决 分 类 问题 的 一 般 方法 ,讲述 构建 分 类 模型 的 基本 技 
术 一 一 贝 叶 斯 分 类 器 ,决策 树 、 支 持 向 量 机 和 粗糙 集 , 最 后 讨论 评估 分 类 器 性 能 的 方法 。 


4.1 预备 知识 
分 类 任务 的 输入 数据 是 记录 的 集合 。 每 条 记录 也 称 实例 或 样 例 , 用 元 组 (z,y) 表 示 , 其 


中 ,zx 是 属性 的 集合 ,而 > 是 一 个 特殊 的 属性 ,指出 样 例 的 类 标号 (也 称 为 分 类 属性 或 目标 属 
性 )。 表 4-1 列 出 一 个 样本 数据 集 , 用 来 将 疹 椎 动物 分 为 以 下 几 类 : 哺乳 类 、 鸟 类 、 鱼 类 、 扑 


第 4 章 分 类 分 析 GT 


行 类 和 两 栖 类 。 属 性 集 指明 疹 椎 动物 的 性 质 ,如 体温 、 表 皮 和 覆盖、 繁殖 后 代 的 方式 、 飞 行 的 能 
力 和 在 水 中 生存 的 能 力 等 。 尽 管 表 4-1 中 的 属性 主要 是 离散 的 ,但 是 属性 集 也 可 以 包含 连 
续 特征 。 但 类 标号 却 必须 是 离散 属性 ,这 正 是 区 别 分 类 与 回归 的 关键 特征 。 回 归 是 一 种 预 
测 建 模 任务 ,其 中 目标 属性 y 是 连续 的 。 


表 4-1 将 椎 动物 的 数据 集 


名 称 温 | 表皮 覆盖 | ”胎生 | 水 生动 物 | 飞行 动物 | ”有 腿 冬眠 类 标号 
人 类 恒温 毛发 是 理 否 是 否 哺乳 类 
蟒蛇 冷血 鳞片 否 否 香 否 是 让 行 类 
鲜 鱼 冷血 鳞片 否 是 否 否 否 鱼 类 
鲸 恒温 毛发 是 是 否 否 否 哺乳 类 
青蛙 冷血 无 否 半 否 是 是 两 栖 类 
巨 蜥 冷血 鳞片 否 否 否 是 否 疏 行 类 
蝙蝠 恒温 毛发 是 否 是 是 是 哺乳 类 
铝 子 恒温 羽毛 否 否 是 是 否 鸟 类 
猫 恒温 软 毛 是 否 否 是 否 哺乳 类 
豹 纹 泌 冷血 鳞片 是 是 否 否 二 鱼 类 
海 凶 冷血 鳞片 否 半 否 是 否 息 行 类 
企鹅 恒温 羽毛 否 半 否 是 否 鸟 类 
豪猪 恒温 刚毛 是 否 否 是 是 哺乳 类 
鲁 冷血 鳞片 否 是 否 否 否 鱼 类 
嵘 晨 冷血 无 否 半 否 是 是 两 栖 类 


定义 分 类 分 类 任务 就 是 通过 学 习 得 到 一 个 目标 函数 f, 把 每 个 属性 集 x 映射 到 一 
个 预先 定义 的 类 标号 y。 

目标 函数 也 称 分 类 模型 。 分 类 模型 可 以 用 于 以 下 目的 。 

(1) 描述 性 建 模 。 分 类 模型 可 以 作为 解释 性 的 工具 ,用 于 区 分 不 同类 中 的 对 象 。 例 如 ， 
对 于 生物 学 家 或 者 其 他 人 ,一 个 描述 性 模型 有 助 于 概括 表 4-1 中 的 数据 ,并 说 明 哪 些 特征 决 
定 一 种 次 椎 动物 是 哺乳 类 、 息 行 类 、 乌 类 、 鱼 类 或 者 两 栖 类 。 

(2) 预测 性 建 模 。 分 类 模型 还 可 以 用 于 预测 未 知 记录 的 类 标号 。 如 图 4-2 所 示 , 分 类 
模型 可 以 看 作 是 一 个 黑箱 , 当 给 定 未 知 记录 的 属性 集 上 的 值 时 , 它 自 动 地 赋予 未 知 样本 类 标 
号 。 例 如 ,有 一 种 叫 作 毒 蜥 的 生物 ,其 特征 如 表 4-2 所 示 。 


表 4-2 毒 蜥 特征 


可 以 使 用 根据 表 4-1 中 的 数据 集 建 立 的 分 类 模型 来 确定 该 生物 所 属 的 类 。 

分 类 技术 非常 适合 预测 或 描述 二 元 或 标 称 类 型 的 数据 集 ,对 于 序数 分 类 (例如 ,把 人 分 
类 为 高 收入 .中 等 收入 或 低 收入 组 ) ,分 类 技术 不 太 有 效 ,因为 分 类 技术 不 考虑 隐 含 在 目标 类 
中 的 序 关系 。 其 他 形式 的 联系 ,如 子 类 与 超 类 的 关系 (例如 ,人 类 和 和 猿 都 是 灵 长 类 动物 ,而 灵 
长 类 是 哺乳 类 的 子 类 ) 也 被 忽略 。 本 章 余下 的 部 分 只 考虑 二 元 的 或 标 称 类 型 的 类 标号 。 
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输入 输出 
属性 集 Q) 一 一 >| 分 类 模型 上 > 类 标号 CD) 


图 4-2 分 类 器 的 任务 是 根据 输入 属性 集 z 确定 类 标号 y 


4.2 解决 分 类 问题 的 一 般 方法 


分 类 技术 (或 分 类 法 ) 是 一 种 根据 输入 数据 集 建 立 分 类 模型 的 系统 方法 。 分 类 法 的 例子 
包括 决策 树 分 类 法 .基于 规则 的 分 类 法 、 粗 糙 集 理论 .支持 向 量 机 和 朴素 贝 叶 斯 分 类 法 。 这 
些 技术 都 使 用 一 种 学 习 算法 确定 分 类 模型 ,该 模型 能 够 很 好 地 拟 合 输入 数据 中 类 标号 和 属 
性 集 之 间 的 联系 。 学 习 算 法 得 到 的 模型 不 仅 要 很 好 地 拟 合 输入 数据 ,还 要 能 够 正确 地 预测 
未 知 样本 的 类 标号 。 因 此 ,训练 算法 的 主要 目标 就 是 建立 具有 很 好 的 泛 化 能 力 模型 , 即 建立 
能 够 准确 地 预测 未 知 样 本 类 标号 的 模型 。 

图 4-3 展示 了 建立 分 类 模型 的 一 般 方法 。 首 先 ,需要 一 个 训练 集 , 它 由 类 标号 已 知 的 记 
录 组 成 。 使 用 训练 集 建立 分 类 模型 ,该 模型 随后 将 运用 于 检验 集 ,检验 集 由 类 标号 未 知 的 记 
录 组 成 。 


训练 集 

Tid | 属性 1 | 属性 2 | 属性 3 | 类 

1 Yes Large 125K No 

2 No Medium 100K No 

3 No | smal | 7ogK | No 学 习 算法 

4 Yes Medium 120K No 

7 No Large 95K Yes 

6 No Medium 60K No 归纳 

站 Yes Large 220K No 

8 No Small 85K Yes 

9 No Medium 75K No 

10 No Small 90K Yes | 

模型 
检验 集 

Tid | 属性 1 | 属性 2 | 属性 3 | 类 Ee 
11 No Small 55K ? 应 用 模型 

12 Yes Medium 830K 学 | 

13 Yes Large 110K 多 i 

14 No Small 95K ? 

15 No Large 67K 他 


图 4-3 建立 分 类 模型 的 一 般 方法 


分 类 模型 的 性 能 根据 模型 正确 和 错误 预测 的 检验 记录 计数 进行 评估 ,这 些 计数 存放 在 
称 作 混淆 和 矩阵 的 表格 中 。 表 4-3 描述 了 二 元 分 类 问题 的 混淆 和 矩阵 。 表 中 每 个 表 项 方 表示 
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实际 类 标号 为 i 但 被 预测 为 类 j 的 记录 数 , 例 如 ,fo 代表 原本 属于 类 0 但 被 误 分 为 类 1 的 记 
录 数 。 按 照 混 淆 矩阵 中 的 表 项 ,被 分 类 模型 正确 预测 的 样本 总 数 是 (. 广 ; 十 jos) ,而 被 错误 预 
测 的 样本 总 数 是 (Po 十 /ao)。 


表 4-3 二 元 分 类 问题 的 混淆 矩阵 


预测 的 类 
类 =1 类 =0 
类 =1 fu fio 
实际 的 类 
购 类 =0 fo fo 


虽然 混 清和 矩阵 提供 衡量 分 类 模型 性 能 的 信息 ,但 是 用 一 个 数 汇总 这 些 信息 更 便于 比较 
不 同 模型 的 性 能 。 为 实现 这 一 目的 ,可 以 使 用 性 能 度量 ,如 准确 率 , 其 定义 如 下 。 


。_ 正确 预测 数 fu 十 fw 
准确 率 = -预测 总 数 一 万 二 fo 十 加 二 7 


同样 ,分 类 模型 的 性 能 可 以 用 错误 率 来 表示 ,其 定义 如 下 。 


,we 错误 预测 数 次 平 商 
错误 率 一 -预测 六 数 “一 i 干 fo 十 for 二 J 


大 多 数 分 类 算法 都 在 寻求 这 样 一 些 模型 , 当 把 它们 应 用 于 检验 集 时 具有 最 高 的 准确 率 ， 
或 者 等 价 地 ,具有 最 低 的 错误 率 。 


4.3 分 类 算法 


(4-1) 


(4-2) 


4.3.1 贝 叶 斯 分 类 器 


在 很 多 应 用 中 ,属性 集 和 类 变量 之 间 的 关系 是 不 确定 的 。 换 句 话 说 ,尽管 测试 记录 的 属 
性 集 和 某 些 训 练 样 例 相 同 , 但 是 也 不 能 正确 地 预测 它 的 类 标号 。 这 种 情况 产生 的 原因 可 能 
是 噪声 ,或 者 出 现 了 某 些 影响 分 类 的 因素 却 没有 包含 在 分 析 中 。 例 如 ,考虑 根据 一 个 人 的 饮 
食 和 银 炼 的 频率 来 预测 他 是 否 有 患 它 脏 病 的 危险 。 尽 管 大 多 数 饮食 健康 经常 锻炼 身体 的 
人 患 它 脏 病 的 概率 较 小 ,但 仍 有 人 由 于 遗传 .过 量 抽烟 ,醒酒 等 其 他 原因 而 患 病 。 确 定 一 个 
人 的 饮食 是 否 健康 、 体 育 锻炼 是 否 充分 也 是 需要 论证 的 课题 ,这 反 过 来 也 会 给 学 习 问 题 带 来 
不 确定 性 。 

本 节 将 介绍 一 种 对 属性 集 和 类 变量 的 概率 关系 建 模 的 方法 。 首 先 介 绍 贝 叶 斯 定理 , 它 
是 一 种 把 类 的 先 验 知识 和 从 数据 中 收集 的 新 证 据 相 结合 的 统计 原理 ; 然后 解释 贝 叶 斯 定理 
在 分 类 问题 中 的 应 用 , 接 下 来 描述 贝 叶 斯 分 类 器 的 两 种 实现 : 朴素 贝 叶 斯 和 贝 叶 斯 信念 
网 络 。 

1. 贝 叶 斯 定理 

假设 X,Y 是 一 对 随机 变量 ,它们 的 联合 概率 p(X 二 xz,Y 二 y) 是 指 X 取 值 x 且 Y 取 值 y 
的 概率 ,条 件 概率 是 指 一 随机 变量 在 另 一 随机 变量 取 值 已 知 的 情况 下 取 某 一 特定 值 的 概率 。 
例如 ,条 件 概率 p (Y= 二 y|X==x) 是 指 在 变量 X 取 值 x 的 情况 下 ,变量 Y 取 值 y 的 概率 。X 
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和 YY 的 联合 概率 和 条 件 概率 满足 如 下 关系 : 


p(XsY) 一 PC(Y| Xp(X) = p(X | Y)p(Y) (4-3) 
调整 公式 (4-3) 最 后 两 个 表达 式 得 到 公式 (4-4) , 称 为 贝 叶 斯 定理 。 
PXIYDpOY) _ 
pl(Y | X) DR (4-4) 


贝 叶 斯 定理 可 以 用 来 解决 预测 问题 。 壁 如 ,考虑 两 队 之 间 的 足球 比赛 ; 队 0 和 队 1。 假 
设 65% 的 比赛 队 0 胜出 ,剩余 的 比赛 队 1 获胜 。 队 0 获胜 的 比赛 中 只 有 30% 是 在 队 1 的 主 
场 ,而 队 1 取胜 的 比赛 中 75% 是 主场 获胜 。 如 果 下 一 场 比赛 在 队 1 的 主场 进行 , 哪 一 支 球 
队 最 有 可 能 胜出 呢 ? 

用 随机 变量 X 代表 东道 主 ,随机 变量 Y 代表 比赛 的 胜利 者 。X 和 YY 可 在 集合 {0,1) 中 
取 值 。 那 么 问题 中 给 出 的 信息 可 总 结 如 下 。 

队 0 取胜 的 概率 是 p(Y=0)==0. 65， 

队 1 取胜 的 概率 是 P(Y= 王 1) 王 1 一 p(Y=0)==0. 35， 

队 1 取胜 时 作为 东道 主 的 概率 是 p(X=1|Y=1)=0.75， 

队 0 取胜 时 队 1 作为 东道 主 的 概率 是 p(X=1|lY=0)==0. 3。 

我 们 的 目的 是 计算 p(Y==1|X=1), 即 队 1 在 主场 获胜 的 概率 ,并 与 p(Y=0|X=1) 比 
较 。 应 用 贝 叶 斯 定理 得 到 : 


BX =| = = Ww 
p(X=1) 


pAX=1|Y= Dp(Y=1) 
p(X=1,Y=1)+p X=1,Y = 0) 


p(X=1|lY= Dp(Y=1) 
p(X=1|1Y= Dp(Y=1)+pX=1|Y=0)pY = 0) 


es. 0.75 XxX 0.35 
0.75X0.35 十 0.3X0.65 


一 0.5738 

进一步 ,p(Y= 二 0|X=1) 二 0.4253,p(Y 二 1|X==1) 二 0.5738, 所 以 队 1 更 有 机 会 赢得 下 
一 场 比赛 。 

2. 贝 叶 斯 定理 在 分 类 中 的 应 用 

在 描述 贝 叶 斯 定理 怎样 应 用 于 分 类 之 前 , 先 从 统计 学 的 角度 对 分 类 问题 加 以 形式 化 。 
设 X 表示 属性 集 ,Y 表示 类 变量 。 如 果 类 变量 和 属性 之 间 的 关系 不 确定 ,那么 可 以 把 X 和 
Y 看 作 随 机 变量 ,用 p(Y|X) 以 概率 的 方式 捕捉 二 者 之 间 的 关系 。 这 个 条 件 概 率 又 称 为 Y 
的 后 验 概率 ,与 之 相对 地 ,p(Y) 称 为 Y 的 先 验 概率 。 

在 训练 阶段 ,要 根据 从 训练 数据 中 收集 的 信息 ,对 X 和 YY 的 每 一 种 组 合 学 习 后 验 概率 
p(Y|1X)。 通 过 找 出 使 后 验 概率 p(Y1X) 最 大 的 类 YY 可 以 对 测试 记录 XX 进行 分 类 。 为 解释 
这 种 方法 ,考虑 任务 : 预测 一 个 贷款 者 是 否 会 拖欠 还 款 。 表 4-4 中 的 训练 集 有 如 下 属性 : 
有 房 .婚姻 状况 和 年 收入 。 拖 欠 还 款 的 贷款 者 属于 类 Yes, 还 清 贷款 的 贷款 者 属于 类 No。 

假设 给 定 一 测试 记录 有 如 下 属性 集 : X=( 有 房 = 否 ,婚姻 状况 = 已 婚 , 年 收入 = 
$ 120k)。 要 分 类 该 记录 ,需要 利用 训练 数据 中 的 可 用 信息 计算 后 验 概率 p(Yes|X) 和 
p(NolX)。 如 果 pP(Yes|X) 二 pp(NolX) ,那么 记录 分 类 为 Yes, 反 之 分 类 为 No。 


pl(Y=1|X=1) 
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表 4-4 预测 贷款 拖欠 问题 的 训练 集 


Tid 有 房 婚姻 状况 年 收入 拖欠 贷款 
1 是 单身 125k 否 
2 否 已 婚 100k 否 
3 否 单身 70k 否 
4 是 已 婚 120k 否 
§ 否 离异 95k 是 
6 否 已 婚 60k 否 
- 是 离异 220k 否 
8 否 单身 85k 是 
9 否 已 婚 75k 否 
10 否 单身 90k 是 
准确 估计 类 标号 和 属性 值 的 每 一 种 可 能 组 合 的 后 验 概率 非常 困难 ,因为 即便 属性 数目 


不 是 很 大 ,仍然 需要 很 大 的 训练 集 。 此 时 , 贝 叶 斯 定理 很 有 用 ,因为 它 允 许 我 们 用 先 验 概 率 
p(Y) .类 条 件 概率 p(X1Y) 和 证 据 p(X) 来 表示 后 验 概率 : 


p(Y | X) = A CY Cy 


在 比较 不 同 Y 值 的 后 验 概率 时 ,分 母 p(X) 总 是 常数 ,因此 可 以 忽略 。 先 验 概率 p(Y) 
可 以 通过 计算 训练 集中 属于 每 个 类 的 训练 记录 所 占 的 比例 很 容易 地 估计 。 通 过 对 类 条 件 概 
率 p(XIY) 的 估计 ,介绍 两 种 贝 叶 斯 分 类 方法 的 实现 : 朴素 贝 叶 斯 分 类 器 和 贝 叶 斯 信念 
网 络 。 

3. 朴素 贝 叶 斯 分 类 器 

给 定 类 标号 y, 朴 素 贝 叶 斯 分 类 器 在 估计 类 条 件 概率 时 假设 属性 之 间 条 件 独 立 。 条 件 
独立 假设 可 形式 化 地 表示 如 下 : 


d 
p(X|IY=»y)= [lp(X:|lY=») (4-6) 
i=1 


其 中 每 个 属性 集 久 二 {Xi ,X,,… ,Xs) 包 含 d 个 属性 。 

1) 条 件 独立 性 

在 深入 研究 朴素 贝 叶 斯 分 类 器 如 何 工作 的 细节 之 前 , 先 介 绍 条 件 独 立 概念 。 设 X,Y 和 
Z 表示 三 个 随机 变量 的 集合 。 给 定 Z, 如 果 下 面 的 条 件 成 立 , 则 X 条件 独立 于 YY: 

p(X|1Y,Z) = p(X |Z2) (4-7) 

条 件 独立 的 一 个 例子 是 一 个 人 的 手臂 长 短 和 他 的 阅读 能 力 之 间 的 关系 。 你 可 能 会 发 现 
手臂 较 长 的 人 阅读 能 力也 较 强 。 这 种 关系 可 以 用 另 一 个 因素 解释 , 那 就 是 年 龄 。 小 孩子 的 
手臂 往往 比较 短 ,也 不 具备 成 人 的 阅读 能 力 。 如 果 年 龄 一 定 , 则 观察 到 的 手臂 长 度 和 阅读 能 
力 之 间 的 关系 就 消失 了 。 因 此 ,可 以 得 出 结论 ,在 年 龄 一 定时 ,手臂 长 度 和 阅读 能 力 二 者 条 
件 独立 。 

X 和 立 之 间 的 条 件 独立 也 可 以 写成 如 下 公式 : 


Ph 


p(X,Y | 2)= DCD) 
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_ p(X,Y,2) x p(Y,2) 
bYyZY PCZ) 


= p(X|Y,Z) XpY |2) 
= p(X|2Z) XK pOY | 2) (4-8) 
2) 朴素 贝 叶 斯 分 类 器 工作 原理 
有 了 条 件 独 立 假设 ,就 不 必 计 算 X 的 每 一 个 组 合 的 类 条 件 概 率 , 只 需 对 给 定 的 了 ,计算 
每 一 个 X; 的 条 件 概 率 。 后 一 种 方法 更 实用 ,因为 它 不 需要 很 大 的 训练 集 就 能 获得 较 好 的 概 
率 估计 。 
分 类 测试 记录 时 ,朴素 贝 叶 斯 分 类 器 对 每 个 类 Y 计算 后 验 概率 : 


d 
p(Y) [[ p(X |Y) 


(Y | X= px (4-9) 


由 于 对 所 有 的 Y,p(X) 是 固定 的 ,因此 只 要 找 出 使 分 子 p(Y) [| p(X; | Y) 最 大 的 类 就 


足够 了 。 在 接 下 来 两 部 分 ,将 描述 几 种 估计 分 类 属性 和 连续 属性 的 条 件 概 率 p(X;|1Y) 的 
方法 。 

3) 估计 分 类 属性 的 条 件 概率 

对 分 类 属性 Xi ,根据 类 y 中 属性 值 等 于 X; 的 训练 实例 的 比例 来 估计 条 件 概率 p(X;== 
:ilY=y)。 在 表 4-4 给 出 的 训练 集中 ,还 清 贷款 的 7 个 人 中 3 个 人 有 房 ,因此 ,条 件 概 率 pp 
(有 房 = 是 | No) 等 于 3/7。 同 理 , 拖 欠 还 款 的 人 中 单身 的 条 件 概 率 p( 婚 姻 状 况 三 单身 | Yes) 
等 于 2/3。 

4) 估计 连续 属性 的 条 件 概 率 

朴素 贝 叶 斯 分 类 法 使 用 以 下 两 种 方法 估计 连续 属性 的 类 条 件 概 率 。 

(1) 可 以 把 每 一 个 连续 的 属性 离散 化 ,然后 用 相应 的 离散 区 间 替 换 连 续 属 性 值 。 这 种 
方法 把 连续 属性 转换 成 序数 属性 。 通 过 计算 类 y 的 训练 记录 中 落 入 X; 对 应 区 间 的 比例 来 
估计 条 件 概率 p(X; 二 x;|Y 二 y)。 估 计 误 差 由 离散 策略 和 离散 区 间 的 数 日 决定 。 如 果 离 散 
区 间 的 数目 太 大 , 则 就 会 因为 每 一 个 区 间 中 训练 记录 太 少 而 不 能 对 p(X;1Y) 做 出 可 靠 的 估 
计 。 相 反 , 如 果 区 间 数 目 太 小 ,有 些 区 间 就 会 含有 来 自 不 同类 的 记录 ,因此 失去 了 正确 的 决 
策 边 界 。 

(2) 可 以 假设 连续 变量 服从 某 种 概率 分 布 ,然后 使 用 训练 数据 估计 分 布 的 参数 。 高 斯 
分 布 通常 被 用 来 标识 连续 属性 的 类 条 件 概率 分 布 。 该 分 布 有 两 个 参数 ,均值 w 和 o?。 对 每 
个 类 y; ,属性 X; 的 类 条 件 概率 等 于 : 


1 (Grp 
p(X;:=zxi|Y = y;) € 2 (4-10) 
V2nos 


参数 jy 可 以 用 类 y; 的 所 有 训练 记录 关于 XX; 的 样本 均值 (x) 来 估计 。 同 理 ,参数 o? 可 
以 用 这 些 训练 记录 的 样本 方差 (s*) 来 估计 。 例 如 , 表 4-4 中 年 收入 这 一 属性 。 该 属性 关于 
类 No 的 样本 均值 和 方差 如 下 。 


125 十 100 十 70 十 … 十 75 
7 


110 
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a 2 至 共 5_ 2 
中 一 (125 ii0 关 直人 二 90 三 种 00- = 二 (75. 二 210 一 2975 


7X6 


s = V2975 = 54. 54 
给 定 一 测试 记录 ,应征 税 的 收入 等 于 120k 美元 ,其 类 条 件 概率 计算 如 下 。 


1 Clzo-110)2 


p( 收 入 = $120k | No) e 7 = 0.0072 
V2 (54. 54) 


注意 ,前 面 对 类 条 件 概率 的 解释 有 一 定 的 误导 性 。 公 式 (4-10) 的 右边 对 应 于 一 个 概率 
密度 函数 f(X;， ,ps ,05 )。 因 为 该 函数 是 连续 的 ,所 以 随机 变量 X; 取 某 一 特定 值 的 概率 为 
0。 取 而 代 之 ,应 该 计算 X; 落 在 区 间 x; 到 xz; 十 的 条 件 概率 ,其 中 。 是 一 个 很 小 的 常数 。 


xie 
pm<x<nm+ely=y)=| JCXi。 Ai 105)dX; 


Se FCX ho) Xe (4-11) 

由 于 e 是 每 个 类 的 一 个 常量 乘法 因子 ,在 对 后 验 概率 p(Y1X) 进 行规 范 化 的 时 候 就 抵 
消 掉 了 。 因 此 , 仍 可 使 用 式 (4-10) 来 估计 类 条 件 概率 p(X;|Y)。 

5) 朴素 贝 叶 斯 分 类 器 举例 

考虑 表 4-4 中 的 数据 集 , 可 以 计算 每 个 分 类 属性 的 类 条 件 概率 ,同时 利用 前 面 介绍 的 方 
法 计算 连续 属性 的 样本 均值 和 方差 。 这 些 概率 汇总 如 下 。 

pC( 有 房 = 是 |No)=3/7 

p( 有 房 = 否 |No)==4/7 

p( 有 房 二 是 | Yes) 二 0 

p( 有 房 = 否 |Yes)==1 

(婚姻 状况 = 单身 | No)= 二 2/7 

p( 婚 姻 状况 二 离婚 | No) 二 1/7 

p( 婚 姻 状 况 == 已 婚 | No) 二 4/7 

p( 婚 姻 状况 三 单身 | Yes) 二 2/3 

p( 婚 姻 状 况 三 离婚 | Yes) 二 1/3 

p( 婚 姻 状 况 二 已 婚 | Yes)==0 

年 收入 : 

如 果 类 二 No: 样本 均值 =110, 样 本 方差 二 2975。 

如 果 类 三 Yes: 样本 均值 =90, 样 本 方差 二 25。 

为 了 预测 测试 记录 X==( 有 房 = 否 ,婚姻 状况 = 已 婚 , 年 收入 二 $ 120k) 的 类 标号 ,需要 
计算 后 验 概率 p(NolX) 和 p(Yes|X)。 回 想 一 下 前 面 的 讨论 ,这 些 后 验 概率 可 以 通过 计算 
先 验 概率 p(Y) 和 类 条 件 概 率 [| p(X; | Y) 的 乘积 来 估计 ,对 应 于 式 (4-9) 右 端的 分 子 。 


每 个 类 的 先 验 概率 可 以 通过 计算 属于 该 类 的 训练 记录 所 占 的 比例 来 估计 。 因 为 有 3 个 
记录 属于 类 Yes,7 个 记录 属于 类 No, 所 以 p(Yes) 王 0.3,p(No) 一 0.7。 使 用 上 述 概率 汇总 
信息 ,类 条 件 概率 计算 如 下 。 

p(No | X)== p( 有 房 = 否 | No) Xp( 婚 姻 状 况 = 已 婚 | No) 
Xp( 年 收入 = 二 $ 120k | No) 
= 4/7 Xx 4/7 X 0.0072 = 0. 0024 
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pl(Yes | X)= p( 有 房 = 否 | Yes) X p( 婚 姻 状 况 = 已 婚 | Yes) 
Xp( 年 收入 = 二 $120k | Yes) 
二 

放 到 一 起 可 得 到 类 No 的 后 验 概率 p(No|X) 二 aX7/10X0.0024 二 0. 0016a, 其 中 ,a= 
1/p(X) 是 常量 。 同 理 , 可 以 得 到 类 Yes 的 后 验 概率 等 于 0, 因 为 它 的 类 条 件 概 率 等 于 0。 因 
为 p(No|X) 这 p(Yes|X) ,所 以 记录 分 类 为 No。 

6) 朴素 贝 叶 斯 分 类 器 的 特征 

朴素 贝 叶 斯 分 类 器 具有 以 下 特点 。 

(1) 面 对 孤 立 的 噪声 点 ,朴素 贝 叶 斯 分 类 器 是 健壮 的 。 因 为 在 从 数据 中 估计 条 件 概率 
时 ,这些 点 被 平均 。 通 过 在 建 模 和 分 类 时 忽略 样 例 ,朴素 贝 叶 斯 分 类 器 也 可 以 处 理 属性 值 遗 
漏 问 题 。 

(2) 面 对 无 关 属性 ,该 分 类 器 是 健壮 的 。 如 果 X; 是 无 关 属 性 ,那么 PCX;|Y) 几 乎 变 成 
均匀 分 布 。X; 的 类 条 件 概 率 不 会 对 总 的 后 验 概率 的 计算 产生 影响 。 

(3) 相关 属性 可 能 会 降低 朴素 贝 叶 斯 分 类 器 的 性 能 ,因为 对 这 些 属性 ,条 件 独立 的 假设 
已 不 成 立 。 


4.3.2 贝 叶 斯 信念 网 络 


朴素 贝 叶 斯 分 类 器 的 条 件 独 立 假 设 太 严 格 ,特别 是 对 那些 属性 之 间 有 一 定 相 关 性 的 分 
类 问题 。 本 节 介 绍 一 种 更 灵活 的 类 条 件 概率 p(X1Y) 的 建 模 方法 。 该 方法 不 要 求 给 定 类 的 
所 有 属性 都 条 件 独立 ,而 是 允许 指定 哪些 属性 条 件 独 立 。 下 面 先 讨论 怎样 表示 和 建立 该 概 
率 模 型 ,接着 说 明 如 何 使 用 模型 推理 。 

1. 模型 表示 

贝 叶 斯 信念 网 络 (Bayesian Belief Networks, BBN), 简 称 贝 叶 斯 网 络 , 用 图 形 表示 一 组 
随机 变量 之 间 的 概率 关系 。 贝 叶 斯 网 络 有 以 下 两 个 主要 成 分 。 

(1) 一 个 有 向 无 环 图 ,表示 变量 之 间 的 依赖 关系 。 

(2) 一 个 概率 表 , 把 各 结 点 和 它 的 直接 父 结 点 关联 起 来 。 

考虑 三 个 随机 变量 A.B 和 C, 其 中 A 和 B 相互 独立 ,并 且 都 直接 影响 第 三 个 变量 C。 
三 个 变量 之 间 的 关系 可 以 用 图 4-4(a) 中 的 有 向 无 环 图 概括 。 图 中 每 个 结 点 表示 一 个 变量 ， 
每 条 弧 表示 两 个 变量 之 间 的 依赖 关系 。 如 果 从 X 到 Y 有 一 条 有 向 弧 , 则 X 是 Y 的 父母 ,Y 
是 X 的 子女 。 另 外 ,如 果 网 络 中 存在 一 条 从 X 到 2Z 的 有 向 路 径 , 则 X 是 2 的 祖先 ,而 Z 是 
X 的 后 代 。 例 如 ,在 图 4-4(b) 中 .A 是 DD 的 后 代 ,D 是 B 的 祖先 ,而 且 B 和 DD 都 不 是 A 的 
后 代 结 点 。 贝 叶 斯 网 络 的 一 个 重要 性 质 表 述 如 下 。 

条 件 独立 ” 贝 叶 斯 网 络 中 的 一 个 结 点 ,如 果 它 的 父母 结 点 已 知 , 则 它 条 件 独立 于 它 的 所 
有 非 后 代 结 点 。 

图 4-4(b) 中 ,给 定 C,A 条 件 独立 于 B 和 DD, 因 为 B 和 D 都 是 A 的 非 后 代 结 点 。 朴 素 
贝 叶 斯 分 类 器 中 的 条 件 独 立 假设 也 可 以 用 贝 叶 斯 网 络 来 表示 ,如 图 4-4(c) 所 示 , 其 中 y 是 
目标 类 , {Xi ,X,，,…,X4} 是 属性 集 。 

除了 网 络 拓扑 结构 要 求 的 条 件 独 立 性 外 ,每 个 结 点 还 关联 一 个 概率 表 。 
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(a) (b) (0) 
图 4-4 使 用 有 向 无 环 图 表示 概率 关系 


(1) 如 果 结 点 X 没有 父母 结 点 , 则 表 中 只 包括 先 验 概率 p(X)。 

(2) 如 果 结 点 X 只 有 一 个 父母 结 点 Y, 则 表 中 包含 条 件 概率 p(X|Y)。 

(3) 如 果 结 点 X 有 多 个 父母 结 点 {Yi,Y;,…,， Yi}), 则 表 中 包含 条 件 概率 p(X | 
Ys 

图 4-5 是 贝 叶 斯 网 络 的 一 个 例子 ,对 心脏 病 或 心口 痛 患 者 建 模 。 假 设 图 中 每 个 变量 都 
是 二 值 的 。 心 脏 病 结 点 (HD) 的 父母 结 点 对 应 于 影响 该 疾病 的 危险 因素 ,例如 锻炼 (E) 和 饮 
食 (D) 等 。 心 脏 病 结 点 的 子 结 点 对 应 于 该 病 的 症状 ,如 胸痛 (CP) 和 高 血压 (BP) 等 。 如 
图 4-5 所 示 , 心 口 痛 (Hb) 可 能 源 于 不 健康 的 饮食 ,同时 又 可 能 导致 胸痛 。 


E=Yes 


0.7 D= 健 康 
0.25 


图 4-5 发 现 心脏 病 和 心口 痛 病人 的 贝 叶 斯 网 络 


影响 疾病 的 危险 因素 对 应 的 结 点 只 包含 先 验 概率 ,而 心脏 病 、 心 口 痛 以 及 它们 的 相应 症 
状 所 对 应 的 结 点 都 包含 条 件 概率 。 为 了 节省 空间 ,图 中 省 略 了 一 些 概率 。 注 意 p(X 二 x1Y) 王 
1 一 p(X 一 x1Y), 其 中 ,+ 和 x 是 相反 的 结果 。 因 此 ,省 略 的 概率 可 以 很 容易 求 得 。 例 如 ,条 
件 概 率 : 
pP( 心 脏 病 = No | 锻炼 = No, 饮 食 = 健康 ) 
三 1 一 p( 心 脏 病 = Yes | 锻炼 = No, 饮 食 = 健康 ) 
一 1 一 0.55 = 0.45 
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2. 建立 模型 

贝 叶 斯 网 络 的 建 模 包 括 两 个 步骤 : 创建 网 络 结构 ; 估计 每 一 个 结 点 的 概率 表 中 的 概率 
值 。 网 络 拓扑 结构 可 以 通过 对 主管 的 领域 专家 知识 编码 获得 。 如 下 算法 给 出 了 归纳 贝 叶 斯 
网 络 拓扑 结构 的 一 个 系统 的 过 程 。 


算法 贝 叶 斯 网 络 拓 扑 结构 的 生成 算法 


1; 设 T=(Xi,X; ，"… ,Xa) 表 示 变 量 的 全 序 

2: for j=1 tod do 

3: 令 Xrop 表 示 工 中 第 ) 个 次 序 最 高 的 变量 

4 令 (Xro ) 一 { Xr ,XT ,Xru-D } 表 示 排 在 Xr 前 面 的 变量 的 集合 
5; ”从 x(Xro,) 中 去 掉 对 XX; 没有 影响 的 变量 (使 用 先 验 知识 ) 

6: ”在 Xr 和 x(Xro) 中 剩余 的 变量 之 间 画 弧 
7 


: end for 


考虑 图 4-5 中 的 变量 。 执 行 步 又 1 后 , 设 变量 次 序 为 (E,D,HD,Hb,CP,BP)。 从 变量 
D 开始 ,经 过 步骤 2 到 步 又 7, 得 到 如 下 条 件 概率 。 

(1) pCDIE) 化 简 为 p(D); 

(2) p(HDIE,D) 不 能 化 简 ; 

(3) p(Hb|HD,E.D) 化 简 为 p(Hb|D); 

(4) p(CPIHb, HD,E,D) 化 简 为 p(CP|Hb,HD); 

(5) p(BP|CP,Hb,HD,E,D) 化 简 为 p(BP|HD)。 

基于 以 上 条 件 概率 ,创建 结 点 之 间 的 弧 (E, HD),(D.,HD),(D,Hb), (HD,CP),(Hb, 
CP) 和 (HD,BP) ,这 些 弧 构成 了 如 图 4-5 所 示 的 网 络 结构 。 

贝 叶 斯 网 络 拓扑 结构 生成 算法 保证 生成 的 拓扑 结构 不 包含 环 ,这 一 点 很 容易 证 明 。 如 
果 存 在 环 ,那么 至 少 有 一 条 弧 从 低 序 结 点 指向 高 序 结 点 ,并 且 至 少 存在 另 一 条 弧 从 高 序 结 点 
指向 低 序 结 点 。 该 算法 不 允许 从 低 序 结 点 到 高 序 结 点 的 弧 存 在 ,因此 拓扑 结构 中 不 存在 环 。 

然而 ,如 果 对 变量 采用 不 同 的 排序 方案 ,得 到 的 网 络 拓扑 结构 可 能 会 有 变化 。 某 些 拓扑 
结构 可 能 质量 很 差 , 因 为 它 在 不 同 的 结 点 对 之 间 产 生 了 很 多 条 弧 。 从 理论 上 讲 ,可 能 需要 检 
查 所 有 d! 种 可 能 的 排序 才能 确定 最 佳 的 拓扑 结构 ,这 是 一 项 计算 开销 很 大 的 任务 。 替 代 
的 方法 是 把 变量 分 为 原因 变量 和 结果 变量 ,然后 从 各 原因 变量 向 其 对 应 的 结果 变量 画 弧 。 
这 种 方法 简化 了 贝 叶 斯 网 络 结构 的 建立 。 

一 旦 找到 了 合适 的 拓扑 结构 ,可 以 确定 与 各 结 点 关联 的 概率 表 。 对 这 些 概率 的 估计 比 
较 容 易 ,与 朴素 贝 叶 斯 分 类 器 中 所 用 的 方法 类 似 。 

3. 使 用 BBN 推理 举例 

假设 对 使 用 图 4-5 中 的 BBN 来 诊断 一 个 人 是 否 患 有 心脏 病 。 下 面 曾 述 在 不 同情 况 下 
如 何 做 出 诊断 。 

1) 没有 先 验 信息 

在 没有 任何 先 验 信息 的 情况 下 ,可 以 通过 计算 先 验 概率 p(HD== Yes) 和 p(HD= No) 
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来 确定 一 个 人 是 否 可 能 患 心脏 病 。 为 了 表述 方便 , 设 a€ {Yes,No}) 表 示 锻 炼 的 两 个 值 ,BE 
{健康 ,不 健康 } 表 示 饮 食 的 两 个 值 。 
Pp(HD= Yes)= >) Dp(HD= Yes|E=a,D=Pp(E=a,D= 8B) 
a 有 


= 2) Dp(HD= Yes|E=a,D= Pp(E=a)p(D= 8p) 
a 有 


三 0.25X0.7 汉 0.25 二 0,45X0.7 义 0.75 
十 0.55X0.3X0.25 十 0.75 X0.3X0.75 
一 0.49 
因为 CHD=No)= 王 1 一 p(HD 二 Yes) 二 0.51, 所 以 ,此 人 不 得 心脏 病 的 概率 略 大 。 
2) 高 血压 
如 果 一 个 人 有 高 血压 ,可 以 通过 比较 后 验 概率 p(HD= Yes|BP= 高 ) 和 p(HD= No| 
BP 二 高 ) 来 诊断 他 是 否 患 有 心脏 病 。 为 此 , 先 计算 p(BP 二 高 ): 
p(BP = 二 高) 二 >》Jp(BP= 高 | HD=7p(HD= 7) 


¥ 
= 0.85 X0.49 十 0.2X0.51 
= 0.5185 
其 中 YE{Yes,No}。 因 此 ,此 人 患 心脏 病 的 后 验 概率 是 ， 
p(BP = 高 | HD= Yes)p(HD = Yes) 
PpP(BP = 高 ) 


_ 0.85X0.49 
0.5185 


= 0. 8033 
同 理 ,p(HD==NolBP= 高 )==1 一 0. 8033 二 0.1967。 因 此 , 当 一 个 人 有 高 血压 时 , 则 增 
加 了 他 患 有 心脏 病 的 危险 。 
3) 高 血压 ,饮食 健康 、 经 常 锻炼 身体 
假设 得 知 此 人 经 党 锻炼 身体 并 且 饮 食 健康 。 这 些 新 信息 会 对 诊断 造成 怎样 的 影响 ?加 
上 这 些 新 信息 ,此 人 患 心脏 病 的 后 验 概率 : 
p(HD = Yes | BP 二 高 ,D = 健康 ,E = Yes) 
p(BP= 高 | HD= Yes,D= 健康 ,E = Yes) 
p(BP 二 高 1D 二 健康 ,E = Yes) ]x 
pP(HD = Yes | D = 健康 ,E = Yes) 
p(BP= 二 高 | HD= Yes)p(HD = Yes|D= 健康 ,E = 二 Yes) 
>)p(BP= 高 | HD= Xp(HD=y|D = 健康 ,E = Yes) 


p(HD = Yes | BP = 高) 


0.85 X 0.25 
0.85 X0.25 十 0.2X0.75 


一 0.5862 
而 此 人 不 患 心脏 病 的 概率 是 : 

p(HD = No | BP = 高 ,D = 健康 ,E = Yes) = 1 一 0.5862 = 0,4138 
因此 模型 瞳 示 健康 的 饮食 和 有 规律 的 体育 锻炼 可 以 降低 患 心脏 病 的 危险 。 


V2 
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4. BBN 的 特点 

BBN 模型 的 一 般 特 点 如 下 。 

(1) BBN 提供 了 一 种 用 图 形 模 型 来 捕获 特定 领域 的 先 验 知识 的 方法 。 网 络 还 可 以 用 
来 对 变量 间 的 因果 依赖 关系 进行 编码 。 

(2) 构造 网 络 可 能 既 费 时 又 费力 。 然 而 ,一 旦 网 络 结构 确定 下 来 ,添加 新 变量 就 十 分 容 
易 了 。 

(3) 贝 叶 斯 网 络 很 适合 处 理 不 完整 的 数据 。 对 有 属性 遗漏 的 实例 可 以 通过 对 该 属性 的 
所 有 可 能 取 值 的 概率 求 和 或 求 积 分 来 加 以 处 理 。 

(4) 因为 数据 和 先 验 知识 以 概率 的 方式 结合 起 来 ,所 以 该 方法 对 模型 的 过 分 拟 合 问题 
具有 重 棒 性 。 


4.3.3 决策 树 


决策 树 又 称 判定 树 ,是 一 种 由 结 点 和 有 向 边 组 成 的 层次 结构 ,主要 用 于 分 类 和 预测 。 它 
采用 自 项 向 下 的 递归 方式 ,从 一 组 无 序 、 无 规则 的 实例 中 推理 出 决策 树 形式 的 分 类 规则 。 决 
策 树 中 每 个 内 部 结 点 代表 对 某 一 属性 的 测试 ,并 根据 不 同属 性 判断 从 该 结 点 向 下 的 分 支 ; 
每 条 边 代表 一 个 测试 结果 ; 每 个 树叶 结 点 代表 类 或 类 分 布 , 树 的 顶层 结 点 是 根 结 点 。 一 棵 
典型 的 决策 树 如 图 4-6 所 示 ,用 它 可 以 预测 某 个 人 购买 房屋 的 意向 。 其 中 ,矩形 表示 内 部 结 
点 ,椭圆 表示 树叶 结 点 。 


健康 状况 


<5000 >5000 
图 4-6 购买 房屋 问题 决策 树 


从 这 棵 决策 树 可 以 看 出 : 样本 向 量 为 (年 龄 月薪、 健康 状况 买房 意向 )。 若 给 出 测试 
向 量 (年 龄 月薪、 健康 状况 ) ,输入 待 测 记录 ,可 以 预测 某 位 消费 者 是 否 会 购买 房屋 。 由 此 可 
知 ,决策 树 构造 的 结果 是 一 棵 二 又 树 或 多 又 树 , 它 的 输入 是 一 组 带 有 类 标记 的 训练 数据 。 内 
部 结 点 ( 非 叶 结 点 ) 代 表 一 个 形 如 (a==5) 的 逻辑 判断 ,其 中 ,a 是 属性 ,6 是 该 属性 的 某 个 属性 
值 ; 树 的 边 是 逻辑 判断 的 分 支 结果 。 多 又 树 的 内 部 结 点 是 属性 , 边 是 该 属性 的 所 有 取 值 。 
树 的 叶 结 点 即 为 类 标记 。 

与 其 他 分 类 方法 相 比 ,决策 树 分 类 的 优点 如 下 。 

(1) 分 类 速度 快 ,计算 量 相 对 较 小 ,容易 转换 为 分 类 规则 。 只 须 沿 着 树 根 向 下 一 直 走 到 
叶 结 点 ,经 过 的 分 支 能 唯一 确定 一 个 分 类 的 谓词 。 图 4-6 中 ,“ 年 龄 王 月 薪 一 三 5000” 这 条 路 
径 谓词 表示 为 "如果 一 个 人 年 龄 小 于 等 于 30 且 月 薪 小 于 等 于 5000, 那 么 他 不 会 买房 ”。 
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(2) 分 类 准确 性 高 ,从 决策 树 中 挖掘 出 的 规则 准确 性 高 且 便 于 理解 。 
1. ID3 算法 


Quinlan 提出 的 ID3 算法 是 决策 树 算法 的 代表 ,具有 描述 简单 、 分 类 速度 快 的 优点 ,大 
多 数 决策 树 算法 都 是 在 此 基础 上 改进 的 。ID3 算法 采用 分 治 策略 ,通过 选择 窗口 形成 决策 
树 ,利用 信息 增益 寻找 训练 集 数 据 库 中 最 大 信息 量 的 属性 建立 决策 树 的 一 个 结 点 ,再 根据 该 
属性 的 不 同 取 值 建立 树 的 分 支 ; 在 每 个 分 支 子 集 重复 建立 树 的 下 层 结 点 和 分 支 过 程 。 

ID3 算法 的 基本 思想 如 下 。 

(1) 任意 选取 某 一 属性 作为 决策 树 的 根 结 点 ,对 该 属性 所 有 取 值 创建 树 的 分 支 。 

(2) 用 这 棵 树 对 训练 集 进行 分 类 , 若 某 一 叶 结 点 所 有 实例 都 属于 同一 类 , 则 以 该 类 为 标 
记 标 识 此 叶 结 点 ; 若 所 有 叶 结 点 都 有 类 标记 , 则 算法 终止 。 

(3) 否则 ,选取 一 个 从 该 结 点 到 根 路 径 中 没有 出 现 过 的 属性 为 标记 ,标识 该 结 点 ,再 对 
该 属性 所 有 取 值 继续 创建 树 的 分 支 ,重复 步骤 (2) 。 

ID3 算法 可 以 创建 一 棵 基于 训练 集 的 正确 的 决策 树 ,但 不 一 定 是 最 简单 的 。 

2. 属性 选择 度量 


ID3 算法 在 树 的 每 个 结 点 上 以 信息 增益 作为 度量 来 选择 测试 属性 ,这 种 度量 称 为 属性 
选择 度量 。 选 择 具有 最 高 信息 增益 (或 最 大 伪 压缩 ) 的 属性 作为 当前 结 点 的 测试 属性 ,该 属 
性 使 得 结果 划分 中 样本 分 类 所 需 的 信息 量 最 小 , 即 对 某 一 对 象 分 类 所 需 的 期 望 测试 数目 达 
到 最 小 ,同时 能 确保 找到 一 棵 简单 的 (不 一 定 是 最 简单 的 ) 决 策 树 。 

香农 (C. E. Shannon) 在 1948 年 提出 的 信息 论 中 给 出 信息 量 (Information) 和 炉 
(Entropy) 的 定义 。 业 是 系统 信息 量 的 加 权 平均 , 即 系统 的 平均 信息 量 。 

1) 期 望 信息 量 

设 S 是 nn 个 样本 的 集合 。 假 定 分 类 属性 具有 m 个 不 同 值 ,定义 m 个 不 同类 CCG=1， 
2,…,m) ,si 是 类 C; 中 的 样本 数 。 对 一 个 给 定 样 本 分 类 的 期 望 信息 为 : 


I(s1 52° ,sm) 一 一 3 log: (pi) (4-12) 


式 中 ,p; 表 示 样 本 属于 类 C; 的 概率 ,可 用 s;/S 估计 ， 因此 S 中 的 样本 要 有 一 定 的 数量 和 代 
表 性 。 

2) 壕 

设 属性 A 具有 w 个 不 同 值 {a1,as，…,a,}。 可 以 用 属性 A 把 S 划分 为 v 个 子 集 
{Si1,…,S,) ,其 中 ,S; 包 含 S 中 在 属性 A 上 取 值 aj 的 样本 。 如 果 A 选 作 测试 属性 ,那么 A 
的 v 个 不 同 值 对 应 各 个 分 支 。 设 ;是 样本 子 集 S; 中 类 C; 的 样本 数 。 由 A 划分 样本 子 集 的 
炉 确 定 为 : 


E(A) = Dt ts,, ee (4-13) 


j=1 


式 中 , 浊 二 让 二 sw 表示 子 集中 的 梯 本 个 数 除 以 S 中 的 样本 总 数 , 即 第 个子 集 的 权 。 如 果 


焙 值 越 小 ,样本 子 集 划 分 的 纯度 就 越 高 。 给 定 样本 子 集 S; 的 期 望 信息 : 


TGu so °° 35m) —=— 2) ps logs (ps) (4-14) 
i=1 
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式 中 ,ps 二 ss /|S; | 是 S; 中 的 样本 属于 C; 的 概率 , | S | 表示 集合 S; 中 的 样本 数量 。 

3) 信息 增益 

A 作为 分 支 属性 的 信息 增益 表示 为 : 

gain(A) = I(s1 52° 5m) — E(A) (4-15) 

gain(A) 是 指 由 于 知道 属性 A 的 值 而 导致 炉 的 期 望 压 缩 。 录 是 衔 量 系统 混乱 程度 的 统 
计量 。 炳 越 大 ,表示 系统 越 混 乱 。 因 此 最 佳 分 类 方案 是 使 简 的 减少 量 (Information Gain) 达 
到 最 大 , 即 gain(A) 最 大 ,通常 采用 “贪心 算法 十 深度 优先 搜索 "得 到 。 算 法 计算 每 个 属性 的 
信息 增益 ,具有 最 高 信息 增益 的 属性 选 作 给 定 集合 S 的 分 支 属性 。 创 建 一 个 结 点 ,对 该 属 
性 的 每 个 值 创 建 分 支 ,进而 划分 样本 。 

表 4-5 是 顾客 购买 房屋 的 训练 集 ,以 此 说 明 属 性 选择 方法 。 


表 4-5 顾客 购买 房屋 的 训练 集 


样本 编号 年 龄 月 薪 健康 状况 买房 意向 (类 别 ) 
<30 5000 好 不 买 
2 <30 5000 不 好 不 买 
3 <30 >5000 不 好 买 
4 <30 >5000 好 买 
5 30 一 60 5000 好 买 
6 30 一 60 二 5000 好 买 
7 30 一 60 二 5000 不 好 买 
8 >60 5000 好 买 
9 >60 5000 不 好 不 买 
10 >60 二 5000 不 好 不 买 


从 表 4-5 中 可 以 看 出 ,类 属性 “买房 意向 "有 两 个 取 值 { 严 ,不 买 ) ,因此 存在 两 个 类 别 , 则 
mn 二 2。 设 C1 对 应 于 “ 买 ”",Cs 对 应 于 “不 买 ”", 则 Cl 有 6 个 样本 ,s 一 6,C:* 有 4 个 样本 ,ve 一 4。 
由 式 (4-12) 计 算 期 望 信息 TCs ,so): 


4 
10 


然后 计算 每 个 属性 的 焙 。 对 于 属性 “年 龄 "有 三 个 取 值 {三 30,30~~60, 记 60), 即 三 个 子 
集 ,分 别 计算 三 个 子 集 的 期 望 信息 。 


4 » 2 2 -2 2 
年 龄 一 “ 委 30”: 5 一 2,s2 一 2,T(sa ,sa) 二 logz 时 4 logs E 


二 6 6 4 
Tesmd 1(6,4) 10 log: 10 10 log: 0.9710 


年 龄 一“30 一 60”: si 一 3,szz 一 0,T(sis ,一 一 二 logz =0 


年 龄 一 “之 60”; 


1 
3 


3 log: 2 = 0. 9183 


$13 一 1,szs 一 2,1(s13 ,szs) 3 logs 3 


由 式 (4-13) 计 算 样 本 “年 龄 "划分 成 子 集 的 焙 : 
E( 年 龄 ) 一 在 rem 人 TGs se 站 IC Re es 
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gain( 年 龄 ) TGS,sz) 一 下 (年 龄 ) 0. 2955 
同 理 , 属 性 “月 薪 ”" 和 “健康 状况 ”的 信息 增益 分 别 为 : 
gain( 月 薪 ) 二 0. 1246 
gain( 健 康 状 况 ) 一 0. 1246 
由 于 “年 龄 ”属性 具有 最 高 信息 增益 ,因此 被 选 为 测试 属性 。 创 建 一 个 以 “年 龄 ”为 标记 
的 结 点 ,为 每 个 属性 值 引出 一 个 分 支 ,如 图 4-7 所 示 。 


年 龄 


<30 >60 
30~60 


月 薪 ”健康 状况 ”买房 意向 ”月 薪 ”健康 状况 ”买房 意向 


5000 好 不 买 <5000 好 买 月 薪 ”健康 状况 ”买房 意向 
5000 不 好 不 买 >5000 好 美 <5000 好 买 
>5000 不 好 用 >5000 不 好 买 <5000 不 好 不 买 
>5000 好 买 >5000 不 好 不 买 


图 4-7 对 属性 “年 龄 ”进行 划分 


3. 决策 树 剪 枝 

当 创 建 决策 树 时 ,由 于 数据 中 存在 噪声 和 孤立 点 ,许多 分 支 反 映 的 是 训练 数据 中 的 异 
常 。 前 枝 阶 段 的 任务 是 利用 统计 学 方法 ,去 掉 最 不 可 靠 、 可 能 是 噪声 的 分 支 ,从 而 提高 对 于 
测试 数据 的 正确 分 类 能 力 , 达 到 净化 树 的 目的 。 

剪 枝 常 用 的 方法 包括 先 剪 枝 和 后 剪 枝 。 

1) 先 剪 枝 

先 剪 枝 (Pre-Pruning) 是 在 完全 正确 分 类 训练 集 之 前 , 较 早 地 停止 树 的 生长 。 最 直接 的 
先 剪 枝 方法 是 事先 限定 决策 树 的 最 大 生长 高 度 , 使 决策 树 不 能 过 度 生 长 。 这 种 停止 标准 一 
般 能 取得 比较 好 的 效果 。 不 过 限定 树 高 度 的 方法 要 求 用 户 对 数据 的 取 值 分 布 有 较为 清晰 的 
把 握 , 而 且 需 要 对 参数 值 进 行 反复 尝试 ,否则 无 法 给 出 一 个 较为 合理 的 树 高 度 阔 值 。 更 普遍 
的 做 法 是 采用 统计 意义 下 的 闪 检 验 、 信 息 增益 等 度量 ,评估 每 次 结 点 分 裂 对 系统 性 能 的 增 
益 。 如 果 结 点 分 裂 的 增益 值 小 于 预先 给 定 的 阔 值 , 则 不 对 该 结 点 进行 扩展 。 如 果 在 最 好 情 
况 下 的 扩展 增益 都 小 于 阔 值 ,即使 有 些 结 点 的 样本 不 属于 同一 类 ,算法 也 可 以 终止 。 选 取 阔 
值 是 困难 的 , 阔 值 较 高 可 能 导致 决策 过 于 简化 ,而 阔 值 较 低 可 能 对 树 的 化 简 不 够 充分 。 

先 剪 枝 存在 视野 效果 的 问题 。 在 相同 的 标准 下 ,当前 的 扩展 不 满足 标准 ,但 进一步 的 扩 
展 有 可 能 满足 标准 。 采 用 先 剪 枝 的 算法 有 可 能 过 早 停止 决策 树 的 构造 ,但 由 于 不 必 生 成 完 
整 的 决策 树 ,算法 的 效率 很 高 ,适合 应 用 于 大 规模 问题 。 具 体 在 什么 时 候 停止 决策 树 的 生长 
有 多 种 不 同 的 方法 。 

(1) 一 种 最 为 简单 的 方法 是 在 决策 树 到 达 一 定 高 度 的 情况 下 停止 树 的 生长 ,这 种 停止 
标准 在 特定 情况 下 能 取得 比较 好 的 效果 。 

(2) 到 达 此 结 点 的 实例 具有 相同 的 特征 向 量 ,而 不 必 一 定 属于 同一 类 ,也 可 停止 生长 ， 
这 种 情况 可 以 处 理 数 据 冲 突 问题 。 

(3) 到 达 此 结 点 的 实例 个 数 小 于 某 一 个 阔 值 后 停止 树 的 生长 ,其 不 足 之 处 是 不 能 处 理 
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那些 数量 较 少 的 特殊 情况 。 

(4) 更 为 普遍 的 做 法 是 计算 每 次 扩张 对 系统 性 能 的 增益 ,如 果 这 个 增益 值 小 于 某 个 阔 
值 则 不 进行 扩展 ,如 果 在 最 好 情况 下 的 扩展 增益 都 小 于 阔 值 , 则 即使 有 些 叶 结 点 的 实例 集 不 
属于 同一 类 ,算法 也 停止 。 

先 剪 枝 在 决策 树 生 成 时 可 能 会 丧失 一 些 有 用 的 结论 ,而 这 些 结论 往往 在 决策 树 完全 建 
成 以 后 才 会 被 发 现 ,而 且 , 确 定 何 时 终止 决策 树 生长 是 个 问题 ,目前 使 用 较 多 的 是 后 剪 枝 
翩 法 

2) 后 剪 枝 

后 剪 枝 (PostPruning) 技 术 允 许 决策 树 过 度 生 长 ,然后 根据 一 定 的 规则 , 减 去 决策 树 中 
那些 不 具有 一 般 代 表 性 的 结 点 或 分 支 。 

后 剪 枝 算法 有 自 上 而 下 和 自 下 而 上 两 种 剪 枝 策略 。 自 下 而 上 的 算法 首先 从 最 底层 的 内 
结 点 开始 剪 枝 , 剪 去 满足 一 定 条 件 的 内 结 点 ,在 生成 的 新 决策 树 上 递归 调用 这 个 算法 ,直到 
没有 可 以 剪 枝 的 结 点 为 止 ; 自 上 而 下 的 算法 是 从 根 结 点 开始 向 下 逐个 考虑 结 点 的 剪 枝 问 
题 , 只 要 结 点 满足 剪 枝 的 条 件 就 进行 剪 枝 。 

后 剪 枝 是 一 个 边 修 剪 边 检验 的 过 程 ,一般 规则 是 : 在 决策 树 不 断 剪 枝 的 过 程 中 ,利用 训 
练 样本 集 或 检验 样本 集 数 据 , 检 验 决 策 子 树 对 目标 变量 的 预测 精度 ,并 计算 出 相应 的 错误 
串 。 如 果 存 在 某 个 叶子 剪 去 后 能 使 得 在 测试 集 上 的 准确 度 不 降低 , 则 剪 去 该 叶子 。 

(1) 降低 分 类 错误 率 剪 枝 (Reduced Error Pruning,REP) 方 法 

REP 方法 由 Quinlan 首先 提出 , 它 是 一 种 最 简单 的 前 枝 方法 ,需要 一 个 独立 的 测试 集 
( 剪 枝 数据 集 ) 来 计算 子 树 的 精确 度 。 它 将 树 上 的 每 一 个 结 点 作为 修剪 的 候选 对 象 ,过 程 
如 下 。 

自 底 向 上 ,对 于 树 T 的 每 一 个 子 树 S ,使 它 成 为 叶子 结 点 ,生成 一 棵 新 树 。 如 果 在 测试 
集 上 ,新 树 能 得 到 一 个 较 小 或 相等 的 分 类 错误 ,而 且 子 树 S 中 不 包含 具有 相同 性 质 的 子 树 ， 
则 S 被 删除 ,用 叶子 结 点 代 蔡 。 重 复 此 过 程 , 直 到 任意 一 棵 子 树 被 叶子 结 点 替代 而 不 增加 
其 在 测试 集 上 的 分 类 错误 为 止 。 这 样 会 造成 由 于 训练 集中 的 巧合 规律 性 而 加 入 的 结 点 很 可 
能 被 删除 ,因为 同样 的 巧合 不 大 会 出 现在 测试 集中 。 反 复 地 比较 错误 率 , 每 次 总 是 选取 那些 
删除 后 可 能 最 大 提高 决策 树 在 测试 集 上 的 精度 的 结 点 进行 修剪 ,直到 进一步 的 修剪 会 降低 
决策 树 在 测试 集 上 的 精度 为 止 。 

(2) 悲观 误差 前 枝 (Pessimistic Error Pruning,PEP) 方 法 

PEP 方法 是 Quinlan 为 了 克服 REP 方法 需要 独立 剪 枝 数据 集 的 缺点 而 提出 的 。 假 设 
训练 集 生成 原始 树 为 工 , 某 一 叶子 结 点 的 实例 个 数 为 n(z) ,其 中 错误 分 类 的 个 数 为 ec(2) ,由 
于 训练 数据 既 用 来 生成 决策 树 又 用 来 修剪 树 , 因 此 基于 此 训练 数据 集 的 误差 率 : x (7) 二 
e(1)/n(t) 是 有 偏差 的 , 它 不 能 精确 地 选择 最 好 的 修剪 树 。 

为 此 ,Quinlan 对 误差 估计 增加 了 连续 性 校正 ,将 误差 率 修改 为 : 


7 (1) = [eeo 二 去]/co (4-16) 
设 S 为 树 工 的 子 树 T(7) ,其 叶子 结 点 的 个 数 为 L(S),T(1) 的 分 类 误差 为 : 
>)[eC) 十 1/2] Dels) +L(S)/2 


Dans) Dnls) 


-(T,) (4-17) 
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在 定量 分 析 中 ,为 简单 起 见 , 用 错误 总 数 取代 错误 率 , 即 e (1) 二 el(z) 十 1/2。 那 么 对 于 
子 树 T(), 有 : 
e(T,) = Dyels) +L(S)/2 (4-18) 


如 果 得 到 的 决策 树 精确 地 分 类 各 个 实例 , 即 误差 e(s) 二 0, 此 时 e(T,) 二 1/2, 它 仅 代 表 
决策 树 关联 每 个 叶子 的 时 间 复 杂 性 的 度量 。 当 训练 集中 有 样本 冲突 时 ,此 结果 不 成 立 。 

一 般 来 说 , 某 一 中 间 结 点 + 被 叶子 结 点 蔡 换 的 条 件 是 : 替换 后 子 树 T, 的 误差 率 要 小 于 
节点 上 的 误差 率 。 但 由 于 连续 校正 的 存在 ,有 时 候 会 发 生 n(1) 二 mw(T,) 这 种 情况 。 此 时 节 
点 上 也 要 被 删除 。 为 此 ,Quinlan 削弱 了 对 错误 率 的 限制 ,修改 为 : 


e'(t) Ze (T,)+ SELe’ CT) (4-19) 
其 中 ,SE[e (T,)] 称 为 标准 误差 ,定义 如 下 : 
SE[e’'(T,)] = Vb’ — dac (4-20) 


如 果 式 (4-20) 成 立 , 则 子 树 不 应 被 剪 掉 ,用 相应 的 叶子 结 点 代替 。 对 所 有 非 叶子 结 点 
以 此 计算 测试 ,来 判断 它们 是 否 应 被 修剪 。 

PEP 方法 在 误差 估计 中 引入 连续 校正 机 制 并 没有 充分 的 理论 基础 。 在 统计 上 ,通常 用 
二 项 式 分 布 取代 正 态 分 布 。 事 实 上 ,连续 校正 只 对 引入 复杂 度 因子 有 效 , 然 而 这 个 因子 不 能 
被 看 成 错误 率 ,否则 可 能 导致 剪 枝 不 彻底 或 过 分 剪 枝 。 如 果 所 得 到 的 决策 树 完全 精确 地 分 
类 所 有 的 训练 实例 , 则 : 


e'(T,)+SELe (T,)] = [L(T,) + VLCT) /2 (4-21) 
由 于 e (1)==e(1), 式 (4-21) 简 化 为 : 
L(T,) 十 VLCOT) > 2e 0) (4-22) 


也 就 是 说 ,如 果子 树 T, 中 关于 帮助 纠正 分 类 错误 的 叶子 结 点 数 足够 大 ,就 得 对 T, 剪 枝 。 
常量 1/2 简单 地 表示 一 个 叶子 对 整 棵 树 的 复杂 性 的 贡献 。 

4. 从 决策 树 提取 分 类 规则 

从 构建 的 决策 树 中 可 以 提取 分 类 规则 ,并 以 IF-THEN 的 形式 表示 。 具 体 方法 是 : 从 
根 结 点 到 叶 结 点 的 每 一 条 路 径 创建 一 条 分 类 规则 ,路 径 上 的 每 一 对 “属性 - 值 ” 为 规则 的 前 
件 ( 即 IF 部 分 ) 的 一 个 合 取 项 , 叶 结 点 为 规则 的 后 件 ( 即 THEN 部 分 )。 

对 于 图 4-6 的 决策 树 可 以 提取 如 下 分 类 规则 。 

亚 年 龄 = '<30'AND 月 薪 =' 过 5000' THEN 买房 意向 = ' 不 买 ' 

IF 年 龄 = ' 委 30' AND 月 薪 = > 5000' THEN 买房 意向 = ' 买 ' 

IF 年 龄 = '30 一 60' THEN 买房 意向 = ' 买 ' 


亚 年 龄 = > 60' RND 健康 状况 = ' 好 ' THEN 买房 意向 = ' 买 ' 
亚 年 龄 = > 60' RND 健康 状况 = ' 不 好 ' THEN 买房 意向 = ' 不 买 ' 


4.3.4 支持 向 量 机 


支持 向 量 机 (Support Vector Machine, SVM) 的 核心 内 容 是 由 20 世纪 90 年 代 Vapnik 
等 人 提出 的 , 它 建立 在 统计 学 理论 和 结构 风险 最 小 原理 基础 上 ,是 一 种 新 的 机 器 学 习 方 法 ， 
兼顾 了 训练 误差 和 泛 化 能 力 .能 较 好 地 解决 小 样本 、 非 线性 、 高 维 数 和 局 部 极 小 点 等 实际 问 
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题 , 广 泛 应 用 于 分 类 模式 识 别 、 函 数 逼近 和 时 间 序 列 预测 等 方面 。 

SVM 的 基本 思想 是 通过 非 线性 变换 将 输入 空间 映射 到 高 维特 征 空间 ,在 高 维 空间 中 求 
得 一 个 经 验 风险 为 0`. 具 有 最 大 间隔 的 最 优 超 平面 ,从 而 正确 区 分 输入 空间 的 两 类 样本 。 最 
优 分 类 面 如 图 4-8 所 示 ,图 中 实心 点 和 空心 点 分 别 代表 两 类 训练 样本 , 互 为 分 类 线 ,H! 和 
HH; 与 分 类 线 平行 ,分 别 为 过 两 类 样本 中 离 分 类 线 最 近 的 点 。H' 与 有 H; 间 的 距离 4 称 作 分 
类 间隔 , 线 上 的 样本 为 支持 向 量 。 


OO 


图 4-8 线性 可 分 情况 下 的 超 平面 


给 定 n 个 线性 可 分 的 训练 样本 。 样 本 表示 为 {X;,yi) (i 二 1,2,…,n) ,ycE{ 一 1,1}。 这 
里 考虑 简单 的 二 分 类 问题 , 则 如 图 4-8 所 示 的 线性 分 类 的 最 优 超 平面 表示 为 : 
W.X+b=0 (4-23) 
式 中 ,W 和 4 是 超 平面 的 参数 ,W，X 表示 向 量 W 和 XX 的 内 积 。 
对 于 最 优 超 平面 的 两 个 点 X。 和 XX ,满足 式 (4-23), 则 : 
WX +b=0, W.X,+b=0 
两 个 方程 相 减 得 到 ， 
Wo. (X,—X.)=0 
其 中 ,X, 一 X。 是 一 个 平行 于 最 优 超 平面 的 向 量 , 它 的 方向 从 X. 到 X,。 由 于 点 积 结果 为 0， 
因此 系数 向 量 W 的 方向 与 最 优 超 平面 垂直 。 
可 以 证 明 , 最 优 超 平面 上 的 点 X, 类 标号 定义 为 y, 二 1, 满 足 : 


内。X, 十 0 一 二 0 (4-24) 
而 最 优 超 平 面 下 的 点 X, 类 标号 定义 为 ys 二 一 1, 满 足 : 

W*.X,.+b=y=0 (4-25) 
调整 决策 边界 参数 W 和 0 ,两 个 平行 的 超 平面 分 别 表示 为 : 

Hi:W*» X+b=1 (4-26) 

H2:W »，X+b=—1 (4-27) 


设 XX. 入 ,分 别 是 超 平面 也; 和 瓦 : 上 的 点 ,得 到 : 
W(X.— Xa) 一 2 
Iwll xd 一 2 


本 


4-28) 
Iwi 


式 中 , | W | 表示 向 量 W 的 长 度 。 


支持 向 量 机 的 训练 是 为 了 从 个 训练 数据 中 估计 参数 W 和 2, 即 : 


y=1,W.*.X;++b 宇 1 


yi = 
即 y:(W + Xith)1,i=1,2,"…,n。 
这 样 支持 向 量 机 的 训练 就 转化 为 以 下 被 约束 的 优化 问题 。 


minf(W) = 


S。t。 


yi (We Xi+h) 21, 


—1l,W. Xt+6b<—1 


i=1,2,,n 
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(4-29) 
(4-30) 


(4-31) 


(4-32) 


由 于 目标 函数 是 二 次 的 ,而 约束 在 参数 W 和 4 上 是 线性 的 ,这 个 凸 优化 问题 可 以 通过 


标准 的 拉 格 朗 日 乘 子 方法 求解 。 该 优化 问题 的 拉 格 朗 日 方程 为 : 


工 (到 .07iD) = 十 wl:— Dfty(W. Xi+b)—1] (4-33) 
be im=l 


令 L(W,b,4i) 关 于 Wb 的 梯度 为 0, 则 有 : 


W= Se 
将 拉 格 朗 日 方程 转化 为 对 偶 问题 ,得 到 该 优化 问题 的 对 偶 公式 : 


Bo DAA x XK 
i=l bj 


Sa 一 0 
1 和 1 


(4-34) 


(4-35) 


利用 数值 计算 方法 求解 式 (4-35) ,得 到 一 组 X;。 通 过 式 (4-34) 求 得 W 和 2 的 解 , 则 最 


优 超 平面 可 以 表示 成 : 


(Dx . X)+6 =0 
i=1 


(4-36) 


表 4-6 给 出 一 组 二 维 数据 集 , 它 包 含 8 个 训练 实例 。 使 用 二 次 规划 方法 ,求解 式 (4-35) 
给 出 的 优化 问题 ,得 到 每 一 个 训练 实例 的 拉 格 朗 日 乘 子 4;( 表 中 最 后 一 列 )。 


表 4-6 二 维 数据 集 
Xi X2 了 拉 格 朗 日 乘 子 
0. 3858 0. 4687 1 65. 5261 
0. 4871 0. 6110 一 于 65. 5261 
0.9218 0. 4103 = 和 0 
0.7382 0. 8936 = 0 
0. 1763 0.0579 1 0 
0. 4057 0. 3529 1 0 
0.9355 0. 8132 一 1 0 
0. 2146 0.0099 1 0 


令 W 二 (Wi ,W,) ,6 为 最 优 超 平面 的 参数 。 使 用 式 (4-34) 得 到 : 


Wi 一 DA ,一 65.5261X1X0.3858 十 65.5261 xX (—1) X0.4871 =—6.64 
i=1 


W; = D2 = 65.5261 X1X0.4687 十 65.5261 X (一 1) X 0.6110 =—9.32 
i=1 
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则 : 
[2 1—W. Xi 1 一 (一 6.64)(0. 3858) 一 (一 9.32)(0.4687) = 7. 9300 
| 1—W.。 X;, 1 一 (一 6.64)(0.4871) 一 (一 9.32)(0.6110) = 7.9289 

对 5 .6 中 取 平均 ,得 到 5 一 7.93。 对 应 于 这 些 参数 的 最 优 超 平面 如 图 4-9 所 示 。 


T T T T 


oO J 
_6.64X1-9.32X+7.93=0 Dj 


Ea 
汪 
EE 


图 4-9 线性 可 分 数据 集 的 最 优 超 平面 
则 样本 实例 = 按 如 下 公式 分 类 
es ie ty “z+0) 
如 果 (<) 一 1, 待 测 实例 被 分 为 正 类 ,否则 为 负 类 。 


4.3.5 粗 烽 集 


1982 年 ,波兰 华沙 理工 大 学 Z. Pawlak 教授 首先 提出 了 粗糙 集 理论 ,这 是 一 种 新 型 的 处 
理 模 糊 和 不 确定 知识 的 数学 工具 。 它 不 仅 能 够 在 缺少 关于 数据 的 先 验 知识 的 情况 下 ,仅仅 
以 对 观测 数据 的 分 类 能 力 为 基础 ,解决 模糊 或 不 确定 性 数据 的 分 析 和 处 理 ,而 且 算法 简单 ， 
易于 操作 。 目 前 ,粗糙 集 方法 已 经 在 人 工 智能 .知识 与 数据 发 现 、 模 式 识别 与 分 类 ,故障 检测 
等 方面 得 到 广泛 应 用 。 

粗糙 集 理论 的 特点 是 不 需要 预先 给 定 某 些 特征 或 属性 的 数量 描述 ,而 是 直接 从 给 定 问 
题 的 描述 集 出 发 ,通过 不 可 分 辨 关系 (等 价 关 系 ) 确 定 给 定 问题 的 近似 域 ,从 而 找 出 该 问题 的 
内 在 规律 。 

给 定 一 个 有 限 的 非 空 对 象 集合 U, 称 为 论 域 ,。 REUXU, 它 表示 U 上 的 一 个 等 价 关系 。 
这 里 ,这 种 等 价 关系 R 代表 论 域 U 中 的 一 种 关系 , 它 可 以 是 一 种 属性 的 描述 ,或 为 一 个 属性 
集合 的 描述 ; R 可 以 是 定义 的 一 种 变量 ,也 可 以 是 定义 的 一 种 规则 。 等 价 关 系 R 将 集合 U 
划分 成 不 相交 的 子 集 , 记 作 U/R, 表 示 工 的 所 有 等 价 类 族 。 

如 果 U 上 的 两 个 元 素 x 和 y 属于 相同 的 等 价 类 , 则 称 z 和 yy 是 不 可 分 辩 的 。 一 个 二 元 
组 的 关系 信息 系统 二 (U ,R) 称 为 近似 空间 (或 知识 库 )。R 的 等 价 类 和 空 集 名 称 为 近似 空 
间 KK 二 (U,R) 的 原子 集合 。 多 个 原子 集合 的 并 集 称 为 复合 集合 ,所 有 复合 集合 (包括 空 集 ) 
的 族 , 表 示 为 Com(K)。 

粗糙 集 理论 把 知识 看 成 是 对 有 关 对 象 论 域 的 划分 ,而 等 价 关 系 R 和 由 其 产生 的 等 价 类 
则 是 关于 U 的 有 效 信息 或 知识 。 任 意 给 定 一 个 集合 XEU ,如果 使 用 R 等 价 类 无 法 精确 描 
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述 X, 则 X 就 是 R 的 粗糙 集 ;, 反之 X 是 尺 的 精确 集 。 


粗糙 集 X 可 以 用 两 个 精确 子 集 : 下 近似 ( 集 ) 和 上 近似 ( 集 ) 来 加 以 定义 : 


K_ (XxX)y= IU [zjs (4-37) 
[ageX 
K(X) = [zjr (4-38) 


式 中 ,[zxjr 二 {yl|x Ry) 是 包含 x 的 等 价 类 , 即 [xjr 中 的 每 一 个 对 象 都 与 X 具有 相同 的 特 
征 属性 。 下 近似 K_(X) 是 所 有 在 X 子 集中 的 原子 集 的 并 集 , 即 由 那些 根据 现 有 知识 判断 
肯定 数据 X 的 对 象 组 成 的 最 大 集合 ,也 是 包含 在 X 中 的 最 大 复合 集 ; 上 近似 K-(X) 是 所 
有 具有 与 X 相交 非 空 的 原子 集 的 并 集 , 是 包含 X 的 最 小 复合 集 。 下 近似 中 的 一 个 元 素 必然 
属于 X; 而 上 近似 的 元 素 可 能 属于 X。 下 近似 ( 集 ) 和 上 近似 ( 集 ) 还 可 以 表示 为 ; 
K_(X) 一 (zl|[z]geEX) (4-39) 
K- (X)= {zx|[zjeN XK} (4-40) 
即 当 UU 中 某 个 元 素 x 的 所 有 等 价 元 素 都 属于 X 时 , 则 它 必 然 属于 X; 当 其 至 少 有 一 个 等 价 
元 素 属于 X 时 , 则 它 有 可 能 属于 X。 
一 个 集合 XEU 的 下 近似 和 上 近似 ,将 论 域 U 划分 为 三 个 不 相交 的 区 域 : 正 区 域 
POSCX) 、 负 区 域 NEG(X) 和 边界 区 域 BNDCX) ,分 别 定 义 如 下 。 


POS(X) = K_ (X) (4-41) 
NEG(X) =U—K  (X) (4-42) 
BND(X) = K(X)— K- (X) (4-43) 


在 这 种 定义 下 ,对 于 一 个 集合 XEU ,任何 属于 POS(X) 的 元 素 x ,一定 属于 XX; 任何 属 
于 NEG(X) 的 元 素 x, 肯 定 不 属于 义 , 但 属于 XX 的 补 集 ; 当 一 个 元 素 x 属于 BND(X) 时 ,不 
能 确定 它 是 否 属于 XX 或 X 的 补 集 。 所 以 ,在 某 种 意义 上 边界 域 是 论 域 的 不 确定 域 。 一 个 集 
合 的 上 近似 是 正 区 域 和 边界 区 域 的 并 集 , 即 K(X) 二 POS(X) UBND(X)。 如 果 BND(X)= 
名 , 则 表明 X 是 关于 R 的 精确 集 ; 反之 ,X 是 关于 R 的 粗糙 集 。 

集合 的 不 确定 性 是 由 于 边界 域 的 存在 而 引起 的 。 集 合 的 边界 域 越 大 ,其 精确 性 越 差 。 
对 于 两 个 非 空 集合 X 和 Y, 如 果 它 们 是 完全 不 相同 的 , 则 X 和 Y 是 不 相交 的 . 即 |XNY|= 
0; 如 果 X 和 Y 正好 完全 相同 , 则 |XUYI=|XPnYl=|1XI 王 |Y|。 利 用 这 个 特性 可 以 度量 
集合 的 不 确定 性 ( 即 精确 性 ) 。 

两 个 集合 X 和 Y 之 间 的 相似 程度 定义 为 : 


XY) = IXNY| _ 
(XY FU (4-44) 
若 XzY, 则 s(CX,Y) 一 0; 若 X==Y, 则 *(CX,Y) 王 1。 将 式 (4-39) 代 入 式 (4-44), 其 中 ， 
K_(X) 是 式 (4-44) 中 的 X,K-(X) 是 式 (4-44) 中 的 Y, 从 而 得 到 XX 的 R 粗糙 度 公 式 : 


Wom. .9 
|[K- (XY) UK (X)| IK-(X)| 


DCK-(X),K-(X)) 反 映 了 解 集合 X 的 知识 的 不 完全 程度 。 显 然 ,对 于 每 一 个 RR, 有 
0 二 D(K_(X),K-(X)) 过 1; 车 D(K_(X),K-(X))==0, 则 XX 的 边界 域 为 空 集 ,集合 X 是 
R 可 定义 的 ; 若 D(K_(X) ,K(X)) 二 1. 集 合 X 有 非 空 边界 域 ,集合 XX 是 部 分 R 不 可 定义 
的 ; 车 D(CK-_(X),K-(X)) 二 1, 集 合 XX 是 全 部 R 不 可 定义 的 。 


D(K-_ (X),K (X))=1 1 (4-45) 
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精确 度 函数 p(X) 是 度量 集合 X 不 确定 性 程度 的 另 一 种 形式 ,其 定义 为 : 
| CN 
IK XY| 
对 于 空 集 ,定义 p( 如 ) 二 1。 如 果 六 是 复合 集合 ,那么 o(X) 王 1; 如 果 X 不 是 复合 集合 ,那么 
0 二 p(X) 二 1。 精 确 度 与 粗糙 度 恰恰 相反 ,表示 了 解 集合 X 的 知识 的 完全 程度 。 

对 粗糙 集 的 研究 主要 基于 分 类 。 分 类 和 概念 同 义 , 一 种 类 别 对 应 一 个 概念 。 知 识 由 概 
念 组 成 ,如 果 某 知识 中 含有 不 精确 概念 , 则 该 知识 不 精确 。 粗 糙 集 对 不 精确 概念 的 描述 是 通 
过 上 近似 和 下 近似 这 两 个 精确 概念 来 表示 的 。 一 个 概念 (或 集合 ) 的 下 近似 ( 集 ) 是 其 下 近似 
中 的 元 素 肯定 属于 该 概念 ; 一 个 概念 (或 集合 ) 的 上 近似 ( 集 ) 指 的 是 其 上 近似 中 的 元 素 可 能 
属于 该 概念 。 下 、 上 近似 构成 了 粗糙 集 研究 中 的 两 个 基本 运算 。 

粗 烟 集 理论 的 基本 出 发 点 是 假设 所 研究 的 每 一 个 对 象 涉 及 一 些 信息 (数据 、 知 识 )。 例 
如 ,如 果 对 象 是 某 种 疾病 的 病例 ,那么 这 种 疾病 的 症状 形成 了 有 关 病 例 的 信息 。 如 果 对 象 由 
相同 的 信息 描述 ,那么 它们 就 是 相似 的 或 不 可 分 辨 的 ,由 此 产生 的 不 可 分 辨 关系 正 是 粗糙 集 
理论 的 数学 基础 。 

所 有 相似 对 象 的 集合 称 为 初等 集合 ,形成 知识 的 基本 成 分 (又 称 知识 基 )。 任 何 初等 几 
何 的 并 集 称 为 精确 集 ; 否则 ,一 个 集合 就 是 粗糙 的 (或 不 精确 的 )。 每 个 粗糙 集 都 具有 边界 
元 素 ,也 就 是 那些 既 不 能 确定 为 集合 元 素 也 不 能 确定 为 集合 补 集 元 素 的 元 素 ( 显 然 ,精确 集 
完全 没有 边界 元 素 )。 对 于 具有 边界 实例 的 对 象 , 不 能 利用 现 有 知识 对 其 进行 适当 分 类 。 

给 定 一 张 包括 6 个 病例 的 数据 集 , 如 表 4-7 所 示 。 表 的 列 标示 为 属性 (症状 ) , 行 标示 为 
对 象 (病例 ) , 表 中 的 数据 记录 了 属性 值 。 表 中 的 每 一 行 都 可 看 成 有 关 特 殊 病 例 的 信息 。 如 
病例 P2 由 表 中 下 列 属性 值 描述 : 

{( 头 疼 , 是 ),( 肌 肉 痛 , 否 ), (体温, 高 ), (流感 ,是 )} 
以 此 类 推 , 这 张 表 形 成 了 疾病 病例 信息 。 


oCX) 王 1 一 DCK_ (X),K  (X)) S(K_ (X),K  (X)) (4-46) 


表 4-7 流感 病例 
病例 头疼 肌肉 痛 体温 流感 
Pl 和 否 是 高 是 
P2 是 否 高 是 
P3 是 是 很 高 是 
P4 和 否 是 党 否 
P5 是 否 高 否 
P6 和 否 是 很 高 是 


表 中 病例 P2、P3 和 P5 相对 于 属性 “头疼 ”是 不 可 分 辨 的 ; 病例 P3 和 P6 相对 于 属性 
“肌肉 痛 ” 和 ”流感 "是 不 可 分 辨 的 : 病例 P2 和 P5 相对 于 属性 “头疼 “肌肉 痛 ”" 和 “体温 ”是 不 
可 分 辨 的 。 这 样 ,属性 “头疼 ?产生 两 个 初等 集合 : {P2,P3,P5) 和 {Pl1,P4,P6); 而 属性 “ 头 
疼 ”" 和 “肌肉 痛 ” 生 成 三 个 初等 集合 : {P1,P4,P6}、{P2,P5} 和 {P3}。 同 样 ,人 们 可 以 确定 由 
任意 属性 子 集 所 生成 的 初等 集合 。 
因为 病例 P2 患 有 流感 ,而 病例 P5 没有 上 患 流 感 ,对 于 属性 “头疼 ”肌肉 痛 ”和 “体温 ”来 
说 ,它们 是 不 可 分 辨 的 。 因 此 ,流感 不 能 以 属性 “头疼 ”肌肉 痛 ”" 和 “体温 ”作为 特征 进行 描 
述 , 由 此 得 出 P2 和 P5 是 边界 实例 , 即 它们 不 能 根据 有 效 知识 进行 适当 的 分 类 。 剩 下 的 病 
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例 Pl1、P3 和 P6 所 显示 的 症状 足以 将 它们 确定 地 分 类 成 流感 。 但 不 能 排除 P1 和 P5 患 流 
感 ,而 P4 毫 无 疑问 没有 流感 。 所 以 病例 集合 中 “ 患 有 流感 ”的 下 近似 集合 是 {P1,P3,P6), 上 
近似 集合 是 {P1,P2,P3,P5,P6}。 同 样 ,P4 没有 患 流感 ; P2 和 P5 不 能 排除 患 流感 ,所 以 没 
有 患 流感 的 下 近似 是 {P4}, 上 近似 是 {P2,P4,P5}。 可 以 容易 得 到 ,为 了 确定 是 否 患 流感 ,不 
必 使 用 这 张 表 中 的 所 有 属性 。 如 果 一 个 病例 有 很 高 的 体温 ,一 定 患 有 流感 ; 但 如 果 体 温 正 
常 , 那 一 定 没有 患 流感 。 


4.3.6 其 他 分 类 算法 


除了 贝 叶 斯 分 类 器 决策 树 ,支持 向 量 机 和 粗糙 集 等 分 类 方法 外 ,k- 最 临近 分 类 、 基 于 案 
例 的 推理 和 遗传 算法 也 常用 于 分 类 。 

1. k- 最 临近 分 类 

最 临近 分 类 基于 类 比 学 习 , 训 练 样本 用 维 数值 属性 描述 ,每 个 样本 代表 维 空间 的 一 
个 点 。 这 样 ,所 有 的 训练 样本 都 存放 在 n 维 模式 空间 中 。 给 定 一 个 未 知 样本 ,最 临近 分 类 
法 搜索 模式 空间 , 找 出 最 接近 未 知 样本 的 个 训练 样本 。 这 上 个 训练 样本 是 未 知 样本 的 
个 “近邻 "。 “临近 性 ”用 欧 几 里 得 距离 定义 ,其 中 两 个 点 X= (zz yz) 和 YY 一 (y， 
y2，… ,ya) 的 欧 几 里 得 距离 是 : 


dzy) = | > Gx;— y:)? (4-47) 
i=1 


未 知 样本 被 分 配 到 & 个 最 临近 者 中 最 公共 的 类 。 当 ==1 时 ,未 知 样本 被 指定 到 模式 空 
间 中 与 之 最 邻近 的 训练 样本 的 类 。 

最 临近 分 类 是 基于 要 求 的 或 懒散 的 学 习 法 , 即 它 存放 所 有 的 训练 样本 ,并 且 直 到 新 的 
(未 标记 的 ) 样 本 需要 分 类 时 才 建 立 分 类 。 这 与 诸如 判定 树 归纳 和 后 向 传播 这 样 的 急切 学 习 
法 形成 鲜明 对 比 , 后 者 在 接受 待 分 类 的 新 样本 之 前 构造 一 个 一 般 模 型 。 当 与 给 定 的 无 标号 
样本 比较 的 可 能 的 临近 者 ( 即 存放 的 训练 样本 ) 数 量 很 大 时 ,懒散 学 习 法 可 能 招致 很 高 的 计 
算 开销 。 这 样 , 它 们 需要 有 效 的 索引 技术 。 正 如 所 预料 的 ,懒散 学 习 法 在 训练 时 比 急切 学 习 
法 快 ,但 在 分 类 时 慢 , 因 为 所 有 的 计算 都 推迟 到 那 时 。 与 判定 树 归纳 和 后 向 传播 不 同 ,最 临 
近 分 类 对 每 个 属性 指定 相同 的 权 。 当 数据 中 存在 许多 不 相关 属性 时 ,这 可 能 引起 混乱 。 

最 临近 分 类 也 可 以 用 于 预测 , 即 返 回 给 定 的 未 知 样本 的 实数 值 预测 。 在 此 情况 下 ,分 类 
返回 未 知 样本 的 & 个 最 临近 者 实数 值 标号 的 平均 值 。 

2， 基于 案例 的 推理 

基于 案例 的 推理 (Case-Based Reasoning，CBR ) 分 类 法 是 基于 要 求 的 。 不 像 最 临近 分 
类 法 将 训练 样本 作为 欧 氏 空间 的 点 存放 ,CBR 存放 的 样本 或 “案例 ”是 复杂 的 符号 描述 。 
CBR 的 商务 应 用 包括 诸如 顾客 服务 台 问 题 求解 ,其 中 案例 描述 产品 有 关 的 诊断 问题 。CBR 
还 被 用 在 诸如 工程 和 法 律 领域 ,其 中 案例 分 别 是 技术 设计 和 法 律 条 款 。 

当 给 定 一 个 待 分 类 的 新 案例 时 ,基于 案例 的 推理 首先 检查 是 否 存在 一 个 同样 的 训练 案 
例 。 如 果 找 到 一 个 , 则 返回 附 在 该 案例 上 的 解 。 如 果 找 不 到 同样 的 案例 , 则 基于 案例 的 推理 
将 搜索 具有 类 似 于 新 案例 成 分 的 训练 案例 。 概 念 上 讲 , 这 些 训练 案例 可 以 视 为 新 案例 的 邻 
接 者 。 如 果 案 例 用 图 描绘 ,这 涉及 搜索 类 似 于 新 案例 的 子 图 。 基 于 案例 的 推理 试图 组 合 临 
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近 的 训练 案例 ,提出 新 案例 的 解 。 如 果 解 之 间 出 现 不 相 容 ,可 能 需要 回溯 搜索 其 他 解 。 基 于 
案例 的 推理 可 能 使 用 背景 知识 和 问题 求解 策略 ,以 便 提出 可 行 的 组 合 解 。 

基于 案例 的 推理 存在 的 挑战 包括 找到 一 个 好 的 相似 性 度量 (例如 匹配 子 图 ) ,开发 对 训 
练 案例 索引 的 有 效 技术 和 组 合 解 的 方法 。 

3. 遗传 算法 

遗传 算法 试图 结合 自然 进化 的 思想 。 一 般 地 ,遗传 学 习 开 始 如 下 : 创建 一 个 由 随机 产 
生 的 规则 组 成 的 初始 群体 。 每 个 规则 可 以 用 一 个 二 进位 串 表 示 。 作 为 一 个 简单 的 例子 , 假 
定 给 定 的 训练 集 用 两 个 布尔 属性 A; 和 A: 描 述 , 并 且 有 两 个 类 Cy 和 Cs: 。 规 则 “IF A AND 
NOT A, THEN C:?” 可 以 用 二 进位 串 *100? 编 码 , 其 中 最 左边 的 两 个 二 进位 分 别 代表 属性 
Al 和 A; ,而 最 右边 的 二 进位 代表 类 。 类 似 地 ,规则 “IF NOT A, AND NOT 4, THEN Ci” 
可 以 用 *001” 编 码 。 如 果 一 个 属性 具有 A(& 二 2) 个 值 , 则 可 以 用 A 个 二 进位 对 该 属性 的 值 编 
码 。 类 可 以 用 类 似 的 形式 编码 。 

根据 适 者 生存 的 原则 ,形成 由 当前 群体 中 最 适合 的 规则 组 成 新 的 群体 ,以 及 这 些 规则 的 
后 代 。 典 型 情况 下 ,规则 的 适合 度 用 它 对 训练 样本 集 的 分 类 准确 率 评估 。 

后 代 通 过 使 用 诸如 交叉 和 变异 等 遗传 操作 来 创建 。 在 交叉 操作 中 ,基于 规则 对 子 串 进 
行 交叉 ,生成 新 的 规则 对 。 在 变异 操作 中 ,规则 串 中 随机 选择 的 位 被 反 转 。 

继续 由 先前 的 规则 群体 产生 新 的 规则 群体 的 过 程 ,直到 群体 P* 进 化 ”,P 中 的 每 个 规则 
满足 预先 指定 的 适合 度 阔 值 。 

遗传 算法 易于 并 行 , 并 且 也 已 用 于 分 类 和 其 他 优化 问题 。 在 数据 挖掘 中 ,它们 可 能 用 于 
评估 其 他 算法 的 适合 度 C。 


4.4 评估 分 类 器 的 性 能 


估计 误差 有 助 于 学 习 算 法 进行 模型 选择 , 即 找到 一 个 具有 合适 复杂 度 ,不 易 发 生 过 分 拟 
合 的 模型 。 模 型 一 旦 建立 ,就 可 以 应 用 到 检验 数据 集 上 ,预测 未 知 记录 的 类 标号 。 

测试 模型 在 检验 集 上 的 性 能 是 有 用 的 ,因为 这 样 的 测量 给 出 模型 泛 化 误差 的 无 偏 估计 。 
在 检验 集 上 计算 出 的 准确 率 或 错误 率 可 以 用 来 比较 不 同 分 类 器 在 相同 领域 上 的 性 能 。 然 
而 ,为 了 做 到 这 一 点 ,检验 记录 的 类 标号 必须 是 已 知 的 。 本 节 介 绍 一 些 常用 的 评估 分 类 器 性 
能 的 方法 。 


4.4.1 保持 方法 


在 保持 (Holdout) 方 法 中 ,将 被 标记 的 原始 数据 划分 成 两 个 不 相交 的 集合 ,分 别称 为 训 
练 集 和 检验 集 。 在 训练 数据 集 上 归纳 分 类 模型 ,在 检验 集 上 评估 模型 的 性 能 。 训 练 集 和 检 
验 集 的 划分 比例 通常 根据 分 析 家 的 判断 (例如 ,50 一 50, 或 者 2/3 作为 训练 集 、1/3 作为 检验 
集 )。 分 类 器 的 准确 率 根据 模型 在 检验 集 上 的 准确 率 估计 。 

保持 方法 有 一 些 众 所 周知 的 局 限 性 。 第 一 ,用 于 训练 的 被 标记 样本 较 少 , 因 为 要 保留 一 
部 分 记录 用 于 检验 ,因此 ,建立 的 模型 不 如 使 用 所 有 被 标记 样本 建立 的 模型 好 。 第 二 ,模型 
可 能 高 度 依赖 于 训练 集 和 检验 集 的 构成 。 一 方面 ,训练 集 越 小 ,模型 的 方差 越 大 ; 另 一 方 


第 4 章 分 类 分 析 人 


面 , 如 果 训 练 集 太 大 ,根据 用 较 小 的 检验 集 估 计 的 准确 率 又 不 太 可 靠 。 这 样 的 估计 具有 很 宽 
的 置信 区 间 。 最 后 ,训练 集 和 检验 集 不 再 是 相互 独立 的 。 因 为 训练 集 和 检验 集 来 源 于 同一 
个 数据 集 , 在 一 个 子 集中 超出 比例 的 类 在 另 一 个 子 集 就 低 于 比例 ,反之 亦 然 。 


4.4.2 随机 二 次 抽样 
可 以 多 次 重复 应 用 保持 方法 来 改进 对 分 类 器 性 能 的 估计 ,这 种 方法 称 作 随机 二 次 抽样 。 
设 acc; 是 第 i 次 迭代 的 模型 准确 率 ,总 准确 率 是 accs = Dacci/k, 随机 二 次 抽样 也 会 遇 到 


一 些 与 保持 方法 同样 的 问题 ,因为 在 训练 阶段 也 没有 利用 尽 可 能 多 的 数据 。 并 且 , 由 于 它 没 
有 控制 每 个 记录 用 于 训练 和 检验 的 次 数 , 因 此 ,有 些 用 于 训练 的 记录 使 用 的 频率 可 能 比 其 他 
记录 高 很 多 。 


4.4.3 交叉 验证 


替代 随机 二 次 抽样 的 一 种 方法 是 交叉 验证 。 在 该 方法 中 ,每 个 记录 用 于 训练 的 次 数 相 
同 ,并且 恰 好 检验 一 次 。 为 了 解释 该 方法 ,假设 把 数据 分 为 相同 大 小 的 两 个 子 集 ,首先 选择 
一 个 子 集 作 训 练 集 ,而 另 一 个 作 检验 集 , 然 后 交换 两 个 集合 的 角色 ,原先 作 训练 集 的 现在 作 
检验 集 , 反 之 亦 然 , 这 种 方法 叫 二 折 交 叉 验 证 。 总 误差 通过 对 两 次 运行 的 误差 求 和 得 到 。 在 
这 个 例子 中 ,每 个 样本 各 作 一 次 训练 样本 和 检验 样本 。k 折 交 叉 验 证 是 对 该 方法 的 推广 ,把 
数据 分 为 大 小 相同 的 & 份 ,在 每 次 运行 时 ,选择 其 中 一 份 作 检验 集 ,而 其 余 的 全 作为 训练 集 ， 
该 过 程 重复 次 ,使 得 每 份 数据 都 用 于 检验 恰好 一 次 。 同 样 ,总 误差 是 所 有 次 运行 的 误差 
之 和 。k 折 交叉 验证 方法 的 一 种 特殊 情况 是 令 k 二 NN, 其 中 ,NN 是 数据 集 的 大 小 ,在 这 种 所 谓 
留 一 方法 中 ,每 个 检验 集 只 有 一 个 记录 。 该 方法 的 优点 是 使 用 尽 可 能 多 的 训练 记录 ,此 外 ， 
检验 集 之 间 是 互 斥 的 ,并 且 有 效 地 覆盖 了 整个 数据 集 ; 该 方法 的 缺点 是 整个 过 程 重复 N 
次 ,计算 上 开销 很 大 ,此 外 ,因为 每 个 检验 集 只 有 一 个 记录 ,性 能 估计 度量 的 方差 偏 高 。 


4.4.4 自助 法 


迄今 为 止 ,我 们 介绍 的 方法 都 是 假定 训练 记录 采用 不 放 回 抽样 ,因此 ,训练 集 和 检验 集 
都 不 包含 重复 记录 。 在 自助 方法 中 ,训练 记录 采用 有 放 回 抽样 , 即 已 经 选 作 训练 的 记录 将 放 
回 原来 的 记录 集中 ,使 得 它 等 机 率 地 被 重新 抽取 。 如 果 原 始 数据 有 N 个 记录 ,可 以 证 明 , 平 
均 来 说 ,大 小 为 N 的 自助 样本 大 约 包含 原始 练 集 数据 中 63.2% 的 记录 。 这 是 因为 一 个 记录 
被 自助 抽样 抽取 的 概率 是 1 一 (1 一 1/N)*, 当 N 充分 大 时 ,该 概率 逐渐 通 近 1 一 e 一 
0. 632。 没 有 抽 中 的 记录 就 成 为 检验 集 的 一 部 分 ,将 训练 集 建立 的 模型 应 用 到 检验 集 上 ,得 
到 自助 样本 准确 率 的 一 个 估计 e;。 抽 样 过 程 重复 5 次 ,产生 5 个 自助 样本 。 

按照 如 何 计 算 分 类 器 的 总 准确 率 , 有 几 种 不 同 的 自助 抽样 法 。 常 用 的 方法 之 一 是 
0. 632 自助 , 它 通过 组 合 每 个 自助 样本 的 准确 率 (e;) 和 由 包含 所 有 标记 样本 的 训练 集 计算 的 
准确 率 (acc,) 计 算 总 准确 率 (accpoo): 


而 
aceuu 一 二 2 0.632 Xe;+0. 368 X ace,) (4-48) 
i=1 
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小 结 


(1) 分 类 和 预测 是 数据 分 析 的 两 种 形式 ,可 以 用 于 提取 描述 重要 数据 类 的 模型 或 预测 
未 来 的 数据 趋势 。 

(2) 贝 叶 斯 分 类 器 是 一 种 对 属性 集 和 类 变量 的 概率 关系 建 模 的 方法 。 

(3) ID3 决策 树 算法 ,以 自 顶 向 下 递归 的 方式 构造 决策 树 。 对 于 训练 样本 集 ,ID3 算法 
通过 计算 信息 增益 选择 各 分 支 属性 ,以 信息 增益 最 大 为 分 支 标准 。 再 对 各 分 支 的 训练 样本 
递归 建立 决策 树 ,最 后 得 到 一 棵 多 层 的 决策 树 。 

(4) 支持 向 量 机 从 线性 可 分 情况 下 的 最 优 分 类 发 展 而 来 , 即 找到 用 于 分 类 的 最 优 超 
平面 。 

(5) 粗糙 集 理论 建立 在 分 类 机 制 的 基础 上 ,把 分 类 理解 为 在 特定 空间 的 等 价 关系 ,而 等 
价 关 系 构成 了 对 该 空间 的 划分 。 它 主要 是 利用 已 知 的 知识 库 , 用 知识 库 中 的 已 知 知识 近似 
描述 不 精确 或 不 确定 的 知识 。 


习题 


1. 简 述 朴素 贝 叶 斯 分 类 的 主要 思想 。 

2. 考虑 表 4-8 中 的 数据 集 。 

(1) 估计 条 件 概率 P(A| 十 ),P(B| 十 ),P(C| 十 ),P(A| 一 ),P(B| 一 ),P(C| 一 )。 

(2) 根据 (1) 中 的 条 件 概率 ,使 用 朴素 贝 叶 斯 方法 预测 测试 样本 (A 二 0,B==1,C==0) 的 
类 标号 。 


表 4-8 习题 2 数据 集 


记录 A B [0 类 
1 0 0 0 十 
用 0 0 1 一 
3 0 1 1 二 
4 0 1 1 = 
5 0 0 1 上 
6 1 0 1 上 
7 1 0 1 = 
8 1 0 1 3 
9 1 1 1 上 
10 1 0 1 十 


3. 考虑 表 4-9 中 的 二 元 分 类 问题 的 训练 样本 集 。 

(1) 整个 训练 样本 集 关于 类 属性 的 炉 是 多 少 ? 

(2) 关于 这 些 训练 样本 ,al 和 wz 的 信息 增益 是 多 少 ? 
(3) 对 于 连续 属性 cs ,计算 所 有 可 能 划分 的 信息 增益 。 


表 4-9 习题 3 数据 集 
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实例 a a aa 目标 类 
1 年 1.0 * 
名 x 里 6.0 + 
3 证 F 5.0 一 
4 F F 4.0 十 
5 F 于 7.0 = 
6 F 至 310 一 
F F 8.0 ed 
8 于 F 公克 E 
9 F 下 5.0 一 


4. 什么 是 粗糙 集 ? 粗糙 集 的 作用 及 特点 各 是 什么 ? 


5. 考虑 如 下 测试 分 类 法 A 是 否 优 于 另 一 个 分 类 法 B 的 方法 。 设 N 是 数据 集 的 大 小 ， 
Pa 是 分 类 法 A 的 准确 率 ,ps 是 分 类 法 B 的 准确 率 , 而 p 二 (pa 十 pa)/2 是 两 种 分 类 法 的 平均 


准确 率 。 为 了 测试 分 类 法 A 是 否 显著 优 于 B, 使 用 如 下 Z 统 计量 : 
pa— ps 


[2p(1— p) 
N 


如 果 Z>1.96, 则 认为 分 类 法 A 优 于 分 类 法 
不 同 分 类 法 的 准确 率 : 决策 树 分 类 法 、 朴 素 贝 叶 斯 分 类 法 和 支持 向 量 机 。 


B。 表 4-10 在 不 同 的 数据 集 上 比较 了 三 个 


表 4-10 各 种 分 类 法 准确 率 的 比较 


数据 集 大 小 CN) 决策 树 /% 朴素 贝 叶 斯 /% 支持 向 量 机 /加 
Anneal 898 92.09 79. 62 87. 19 
Australia 690 85.51 76. 81 84.78 
Auto 205 81.95 58.05 70.73 
Breast 699 95. 14 95. 99 96. 42 
Cleve 303 76. 24 83.50 84. 49 
Credit 690 85. 80 77. 54 85.07 
Diabetes 768 72. 40 75. 91 76. 82 
German 1000 70. 90 74.70 74. 40 
Glass 214 67. 29 48. 59 59. 81 
Heart 270 80.00 84.07 83.70 
Hepatitis 155 81.94 83.23 87. 10 
Horse 368 85. 33 78. 80 82. 61 
JIonosphere 351 89.17 82. 34 88. 89 
Iris 150 94.67 95. 33 96. 00 
Labor 57 78.95 94. 74 92. 98 
Led7 3200 73. 34 73. 16 73. 56 
Lymphography 148 77.03 83. 11 86. 49 
Pima 768 74.35 76.04 76. 95 
Sonar 208 78. 85 69.71 76. 92 
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续 表 
数据 集 大 小 (N) 决策 树 /% 朴素 贝 叶 斯 /% 支持 向 量 机 /% 
Eic-tac-toe 958 83.72 70.04 98. 33 
Vehicle 846 71.04 45. 04 74. 94 
Wine 178 94. 38 96. 63 98. 88 
Zoo 101 93.07 93.07 96. 04 


用 如 表 4-11 所 示 


的 3X3 表格 汇总 表 4-10 中 给 定 的 分 类 法 在 数据 上 的 分 类 性 能 。 


表 4-11 分 类 法 在 数据 上 的 分 类 性 能 
赢 - 输 -平局 决策 树 朴素 贝 叶 斯 支持 向 量 机 
决策 树 0 一 0 一 23 
朴素 贝 叶 斯 0 一 0 一 23 
支持 向 量 机 0 一 0 一 23 


表格 中 每 个 单元 的 内 容 包含 比较 行 与 列 的 两 个 分 类 器 时 的 赢 、. 输 和 平局 的 数目 。 
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关联 分 析 


“数据 海量 ,信息 缺乏 ”是 很 多 行业 在 数据 爆炸 过 程 中 普遍 面 对 的 乾 炊 ,如 今 对 信息 的 获 
取 能 力 ,决定 了 在 前 所 未 有 的 激烈 竞争 环境 中 的 决策 能 力 。 如 何 挖掘 出 数据 中 存在 的 各 种 
有 用 的 信息 , 即 对 这 些 数据 进行 分 析 ,发 现 其 数据 模式 及 特征 ,然后 可 能 发 现 某 个 客户 .消费 
群体 或 组 织 的 金融 和 商业 兴趣 ,并 可 以 观察 金融 市 场 的 变化 趋势 ,有 效 地 获取 信息 ,是 每 个 
人 ,每 个 组 织 的 难题 。 信 息 是 现代 企业 的 生命 线 ,如果 一 个 “ 结 点 ? 既 不 提供 信息 也 不 使 用 信 
息 ,也 就 失去 了 存在 的 价值 。 关 联 分 析 (Association Analysis) 用 于 发 现 隐 藏 在 大 型 数据 集 
中 的 令 人 感 兴趣 的 关联 关系 ,描述 数据 之 间 的 密切 度 。 


引 例 1 一 一 购物 篮 分 析 

1993 年 美国 学 者 Rakesh Agrawa 发 表 的 一 篇 论文 , 即 Mining Association Rules 
Vetween Sets of Items in Large Databases ,是 目前 关于 关联 分 析 方 面 被 引用 最 多 的 一 篇 文 
献 , 提 出 通过 分 析 购 物 篮 中 的 商品 集合 ,从 而 找 出 商品 之 间 关 联 关系 的 关联 算法 ,并 根据 商 
品 之 间 的 关系 , 找 出 客户 的 购买 行为 。 世 界 著名 商业 零售 企业 沃尔玛 拥有 世界 上 最 大 的 数 
据 仓 库 系 统 , 集 中 了 其 各 门店 原始 的 详细 交易 数据 ,为 了 能 够 准确 地 了 解 顾客 在 其 门店 的 购 
买 习惯 ,沃尔玛 对 其 顾客 的 购物 行为 进行 了 购物 篮 分 析 。 想 知道 顾客 经 常 一 起 购买 的 商品 
有 哪些 ,数据 挖掘 技术 的 先锋 NCR Teradata 公司 帮助 沃尔玛 创造 了 这 一 传奇 。 

NCR 利用 数据 挖掘 工具 对 这 些 数据 进行 分 析 和 挖掘 ,意外 发 现 “ 跟 尿布 一 起 被 购买 最 
多 的 商品 竟 是 啤酒 >。 这 是 沃尔玛 最 为 经 典 的 商品 陈列 故事 ,该 规则 表明 尿布 和 啤酒 的 销售 
之 间 存 在 着 很 强 的 联系 ,因为 许多 购买 尿布 的 顾客 也 购买 啤酒 。 既 然 尿布 与 啤酒 在 一 起 被 
购买 的 机 会 会 增多 ,于 是 沃尔玛 就 在 其 一 个 个 门店 里 ,将 尿布 和 啤酒 赫然 摆 在 一 起 出 售 ,并 
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且 这 个 奇特 的 举措 使 两 者 的 销售 都 大 为 增加 。 

引 例 2 一 一 网 页 挖掘 

当 人 们 浏览 网 页 的 时 候 , 经 常 看 到 不 少 页 面 :“ 浏 览 本 页 面 的 网 友 还 喜欢 ”我 们 猜测 你 
还 喜欢 以 下 页 面 ”等 这 样 的 功能 。 网 站 通过 收集 每 个 用 户 的 历史 浏览 数据 ,可 以 得 出 浏览 过 
当前 页 面 的 所 有 用 户 以 及 这 些 用 户 浏览 了 哪些 其 他 页 面 ,然后 将 这 些 页 面 合并 ,就 得 出 了 一 
个 同时 被 浏览 页 面 列表 的 排序 ,然后 根据 一 定 的 策略 ,排除 一 些 页 面 ,保留 一 些 高 关联 性 的 
页 面 。 


上 述 案 例 的 关联 规则 就 是 :“ 购 买 某 类 商品 的 顾客 ,还 会 同时 购买 何 种 商品 “浏览 过 该 
页 面 的 用 户 , 还 浏览 过 哪些 页 面 "。 这 中 间 最 重要 的 两 个 步骤 ,就 是 “找到 关联 内 容 和 去 除 低 
关联 内 容 ”, 而 判断 关联 程度 高 低 的 最 常用 的 度量 分 别 是 支持 度 (Support) 和 置信 度 
(Confidence), 

关联 规则 可 以 发 现 交 易 数 据 库 中 不 同 商 品 之 间 的 联系 ,这 些 规则 找 出 顾客 购买 行为 模 
式 , 如 购买 了 某 一 商品 对 购买 其 他 商品 的 影响 。 发 现 这 样 的 规则 可 以 应 用 于 指导 商家 科学 
地 安排 进货 ,管理 库存 ,布置 货架 .制定 营销 策略 以 及 根据 购买 模式 对 用 户 进行 分 类 。 

关联 规则 可 以 发 现 大 型 事务 或 关系 型 数据 库 中 项 之 间 有 趣 的 联系 。 随 着 大 量 数据 不 断 
地 收集 和 存储 ,许多 业界 人 士 对 于 从 数据 库 中 挖掘 这 种 模式 越 来 越 感 兴趣 。 从 大 量 商务 事 
务 记录 中 发 现 有 趣 的 相关 联系 ,可 以 帮助 分 析 顾 客 的 购买 行为 模式 ,从 而 帮助 许多 商务 决策 
制定 ,如 分 类 设计 .交叉 销售 .营销 规划 和 顾客 购买 习惯 分 析 。 

对 于 引 例 1, 按 常规 思维 ,尿布 与 啤酒 风 马 牛 不 相 及 。 但 是 经 过 大 量 的 调查 和 数据 分 
析 ,发 现 了 隐藏 在 “尿布 与 啤酒 ?背后 的 一 种 消费 行为 模式 。 这 是 数据 挖掘 技术 对 历史 数据 
进行 分 析 的 结果 ,反映 了 数据 内 在 的 规律 ,这 两 个 本 质 上 没有 关联 的 物品 发 生 了 关联 ,产生 
了 商业 价值 。 

对 于 引 例 2, 在 电子 商务 服务 竞争 日 益 激烈 的 今天 ,终端 用 户 需 要 更 快速 有 效 的 资讯 导 
航 工具 ,帮助 其 搜索 更 为 相关 的 网 页 ,并 挖掘 深 藏 其 中 的 重要 资讯 。 网 络 服务 的 提供 者 
(Internet Service Provider,ISP) 通 过 学 习 用 户 的 行为 模式 (Usage Pattern) ,从 而 为 用 户 提 
供 大 量 的 资讯 服务 ,并 作为 网 页 内 容 设计 与 网 站 维护 的 参考 。 此 外 ,学 习 用 户 的 行为 模式 也 
有 助 于 降低 网 络 设备 负载 ,提升 网 站 管理 绩效 。 企 业 分 析 师 也 在 寻求 能 了 解 顾客 信息 需求 
或 喜好 ,并 能 自动 执行 知识 管理 (Knowledge Management) 和 决策 制定 (Decision Making) 
的 绩效 工具 ,为 企业 争取 更 多 的 竞争 优势 。 

除了 上 述 案例 ,关联 分 析 也 可 以 应 用 于 其 他 领域 ,如 生物 信息 学 .医疗 诊断 、 网 页 挖掘 和 
科学 数据 分 析 等 。 例 如 ,医学 研究 人 员 和 希望 从 已 有 的 成 千 上 万 份 病例 中 找 出 患 某 种 疾病 的 
病人 的 共同 特征 、 某 一 种 疾病 的 并 发 证 .该 种 疾病 的 致 病因 子 或 关联 因子 ,从 而 为 治愈 或 预 
防 这 种 疾病 提供 一 些 帮助 。 再 如 ,在 生态 环境 研究 中 , 某 一 区 域 生 态 环境 目前 的 状态 是 由 于 
众多 生态 环境 自然 因子 (地 质 、 地 瑶 .气候 等 ) 和 社会 经 济 因子 (人 类 的 开发 利用 方式 和 强度 ) 
所 决定 的 ,可 以 按照 图 层 (每 一 个 因子 对 应 一 个 图 层 ) 建 立 生态 环境 影响 因子 空间 数据 库 , 以 
便 挖掘 生态 环境 现状 与 影响 因子 之 间 的 关联 关系 ,为 生态 环境 治理 提供 决策 依据 。 可 见 对 
关联 规则 的 研究 具有 重大 意义 。 诸 多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 研 
究 。 他 们 的 工作 涉及 关联 规则 挖掘 理论 的 探索 、 原 有 算法 的 改进 和 新 算法 的 设计 、 并 行 关联 
规则 挖掘 (Parallel Association Rule Mining) ,数量 关联 规则 挖掘 (Quantitive Association 
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Rule Mining) 加权 关联 规则 的 发 现 (Weighted Association Rules) 等 问题 以 及 关联 规则 挖 
掘 在 医学 和 生态 环境 中 的 应 用 研究 。 在 提高 挖掘 规则 算法 的 效率 、 适 应 性 .可 用 性 以 及 应 用 
推广 等 方面 ,许多 学 者 都 进行 了 不 懈 的 努力 。 


5.2 基本 概念 


关联 分 析 (Association Analysis) 用 于 发 现 隐藏 在 大 型 数据 集中 的 令 人 感 兴 趣 的 联系 ， 
所 发 现 的 模式 通常 用 关联 规则 (Association Rule) 或 频繁 项 集 的 形式 表示 。 

关联 规则 的 概念 产生 于 1993 年 ,由 Agrawal Imielinski 和 Swami 提出 。 其 一 般 定义 
如 下 : 令 TI 二 (i,is，,… ,in) 表 示 一 个 项 集 。 设 任务 相关 的 数据 D 是 数据 库 事务 的 集合 ,其 中 
每 个 事务 了 是 项 的 集合 ,使 得 TCT。 每 一 个 事务 都 有 一 个 标识 符 , 称 为 TID。 设 4 是 一 个 
项 集 , 事 务工 包含 4 , 当 且 仅 当 4ST。 关 联 规则 是 形 如 A 二 B 的 蕴含 式 ,其 中 ,ACI,BCI， 
并 且 4 站 B= 亿 。 

如 果 D 中 包含 4AUB( 即 集合 A 和 B 的 并 或 4 和 B 的 二 者 ) 的 比例 是 ;, 则 称 关 联 规则 A 
过 B 在 事务 集 D 中 的 支持 度 为 ;, 它 也 可 以 表示 成 概率 P(AUB)。 如 果 D 中 包含 4 事务 的 
同时 也 包含 B 的 比例 是 c , 则 称 关联 规则 4 二 B 在 事务 集 D 中 具有 和 置信 和 度 c, 它 可 以 表示 为 
条 件 概 率 P(B1A)。 即 


support(4 一 B) = P(A UB) (5-1) 
confidence(A=>B) = P(B | A) (5-2) 

支持 度 和 置信 度 是 描述 关联 规则 的 两 个 重要 概念 ,支持 度 用 于 衡量 关联 规则 在 整个 数 
据 集中 的 统计 重要 性 。 简 单 地 说 ,支持 度 度量 的 是 在 所 有 行为 中 规则 4,B 同时 出 现 的 概 
率 。 置 信 度 用 于 衡量 关联 规则 的 可 信 程 度 , 即 置信 度 度量 的 是 出 现 4 的 情况 下 ,B 出 现 的 概 
率 。 如 对 于 购物 篮 分 析 ,挖掘 支持 度 的 意义 就 是 “购买 4 商品 ,也 购买 B 的 人 数 U 全 部 销售 
订单 ”; 置信 和 度 就 是 “购买 4 商品 ,也 购买 B 的 人 数 U 所 有 包含 商品 A 的 销售 ”。 

同时 满足 最 小 支持 度 阔 值 (min_sup) 和 最 小 置信 度 阔 值 (min_conf) 的 规则 称 为 强 关 联 
规则 。 一 般 来 说 ,只 有 支持 度 和 置信 度 较 高 的 关联 规则 才 可 能 是 用 户 感 兴趣 .有 用 的 关联 规 
则 。 在 本 文中 采用 0 名 一 100%% 之 间 的 值 表示 支持 度 和 置信 度 值 。 

项 的 集合 称 为 项 集 。 包 含 &A 个 项 的 项 集 称 为 & 项 集 。 例 如 ,集合 {computer,antivirus_ 
software} 是 一 个 2 项 集 。 

项 集 的 出 现 频率 是 包含 项 集 的 事务 数 ,简称 项 集 的 频率 ,支持 度 计数 或 计数 。 式 (5-1) 
定义 的 项 集 支 持 度 有 时 称 作 相 对 支持 度 ,而 出 现 频率 称 作 绝对 支持 度 。 如 果 项 集 工 的 相对 
支持 度 满足 预先 定义 的 最 小 支持 度 阅 值 ( 即 了 的 绝对 支持 度 满足 对 应 的 最 小 支持 度 计数 国 
值 ), 则 了 是 频繁 项 集 。 频 繁 & 项 集 的 集合 通常 记 作 工 ; 。 

由 式 (5-2), 有 


confidencet A>B) = PB | AY = SubPort(A UB) support-count(A (J BY (56) 
support(A) support_count(A) 


式 (5-3) 表 明 规 则 A 过 >B 的 置信 和 度 容易 从 A 和 AUB 的 支持 度 计 数 推出 。 即 ,一 旦 得 到 
A,B 和 AUB 的 支持 度 计 数 ,导出 对 应 的 关联 规则 A 二 B 和 了 一 4, 并 检查 它们 是 否 是 强 关 
联 规则 是 直截了当 的 。 这 样 一 来 ,挖掘 关联 规则 的 问题 可 以 归结 为 挖掘 频繁 项 集 。 
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一 般 说 来 ,关联 规则 的 挖掘 可 以 看 作 以 下 两 步 的 过 程 。 

(1) 根据 最 小 支持 度 找 出 数据 集 D 中 所 有 的 频繁 项 集 : 根据 定义 ,这 些 项 集 的 每 一 个 
出 现 的 频繁 性 至 少 与 预定 义 的 最 小 支持 度 计数 min_sup 一 样 。 

(2) 由 频繁 项 集 产 生 强 关联 规则 : 根据 定义 ,这 些 规则 必须 满足 预先 给 定 的 最 小 支持 
度 和 最 小 置信 度 阔 值 。 

关联 规则 的 原理 看 似 很 简单 ,但 实际 运用 的 时 候 , 就 会 发 现存 在 很 多 问题 , 想 从 浩瀚 的 
记录 集 里 挖掘 一 条 有 意义 的 关联 规则 ,如果 仅 从 支持 度 和 置信 度 两 个 度量 指标 进行 评估 和 
选择 强 弱 ,会 发 现在 个 别 情况 下 推荐 的 规则 效果 非常 差 。 由 于 第 二 步 的 开销 远 低 于 第 一 步 ， 
挖掘 关联 规则 的 总 体 性 能 由 第 一 步 决 定 。 第 一 步 又 是 关键 , 它 将 影响 整个 关联 规则 挖掘 算 
法 的 效率 ,因此 ,关联 规则 挖掘 算法 的 核心 问题 是 频繁 项 集 的 产生 。 

从 大 型 数据 集中 挖掘 频繁 项 集 的 主要 挑战 是 这 种 挖掘 常常 产生 大 量 满足 最 小 支持 度 
Cmin_sup) 阔 值 的 项 集 , 当 min_sup 设置 得 很 低 时 尤其 如 此 。 这 是 因为 如 果 一 个 项 集 是 频 
繁 的 , 则 它 的 每 个 子 集 也 是 频繁 的 。 一 个 长 项 集 将 包含 组 合 个 数 的 较 短 的 频繁 子 集 项 。 例 
如 ,一 个 长 度 为 100 的 频繁 项 集 {a1，as，… ,aiw } 包 含 Clw 二 100 个 频繁 1 项 集 wa ,as，…， 


Qioo， Ciu 个 频繁 2 项 集 {ai ， az) (al，as mv，{aso， ao } ,等 等 。 这 样 , 频 繁 项 集 的 总 个 
数 为 
Cio 十 Cio 十 … 十 Ci8 一 2 一 1 和 1.27X10? (5-4) 


这 对 于 任何 计算 机 ,项 集 的 个 数 都 太 大 ,无 法 计算 和 存储 。 为 了 克服 这 一 困难 ,引进 闭 频繁 
项 集合 和 极 大 频繁 项 集 的 概念 。 

如 果 不 存在 真 超 项 集 DY 使 得 Y 与 X 在 S 中 有 相同 的 支持 度 计 数 , 则 称 项 集 X 在 数据 
集 S 中 是 闭 的 。 项 集 X 是 数据 集 S 中 的 闭 频繁 项 集 ,如 果 X 在 S 中 是 闭 的 和 频繁 的 。 项 
集 X 是 S 中 的 极 大 频繁 项 集 (或 极 大 项 集 ) ,如 果 X 是 频繁 的 ,并 且 不 存在 超 项 集 Y 使 得 
YCX 并 且 Y 在 S 中 是 频繁 的 。 

设 C 是 数据 集 S 中 满足 最 小 支持 度 闽 值 min_sup 的 闭 频繁 项 集 的 集合 , 令 M 是 S 中 
满足 min_sup 的 极 大 频繁 项 集 的 集合 。 假 定 有 C 和 M 中 的 每 个 项 集 的 支持 度 计数 。 注 意 ， 
C 和 它 的 计数 信息 可 以 用 来 导出 频繁 项 集 的 完整 集合 。 因 此 ,我 们 称 C 包含 关于 频繁 项 集 
的 完整 信息 。 另 一 方面 ,M 只 存储 了 极 大 项 集 的 支持 度 信息 。 通 常 , 它 并 不 包含 其 对 应 的 
频繁 项 集 的 完整 的 支持 度 信息 。 我 们 用 下 面 的 例子 解释 这 些 概 念 。 

【 例 5-1】 闭 的 和 极 大 的 频繁 项 集 。 

假定 事务 数据 库 只 有 两 个 事务 : {过 a ,as，… ,aa 二; 过 al， aa，…,asao 之 )。 设 最 小 支 
持 度 计 数 阔 值 min_sup 一 1。 我 们 发 现 两 个 闭 频繁 项 集 和 它们 的 支持 度 , 即 C={{a ， az ,…， 
aio}: 1; {aq1，az，*…,aso): 2}。 只 有 一 个 极 大 频繁 项 集 : M 二 { {a ， as，… ,aiwm): 1) (我们 
不 能 包含 {al ,as，…，aso) ) 为 极 大 频繁 项 集 ,因为 它 有 一 个 频繁 超 集 {a1 ，az ,…',aio}) 。 与 
上 面相 比 ,那里 我 们 确定 了 2” 一 1 个 频繁 项 集 , 数 量 太 大 ,根本 无 法 枚 举 ! 

闭 频 繁 项 集 的 集合 包含 频繁 项 集 的 完整 信息 。 例 如 ,我 们 可 以 从 C 推 出 {as, as: 
2), 因 为 {as，ass) 是 {a1，as，…,aso: 2) 的 子 集 ; @(as,ass: 1), 因 为 {as ,ass) 不 是 {a1， 


Q@ Y 是 X 的 真 超 项 集 , 即 X 是 Y 的 真子 项 集 , 即 XCY。 换言之 ,X 中 的 每 一 项 都 包含 在 Y 中 ,但 是 了 中 至 少 有 一 
个 项 不 在 和 中 。 
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aaa: 2) 的 子 集 , 而 是 {a1，as，…,al0: 1) 的 子 集 。 然 而 ,从 极 大 频繁 项 集 我 们 只 能 断 
言 两 个 项 集 ({az，as} 和 {as, ass) 是 频繁 的 ,但 是 我 们 不 能 断言 它们 的 实际 支持 度 计数 。 


5.3 关联 规则 的 种 类 


关联 规则 的 分 类 有 多 种 ,根据 不 同 的 标准 ,产生 的 分 类 也 不 同 , 下 面 介绍 几 种 最 常见 的 
分 类 方法 。 
1. 基于 规则 中 所 处 理 的 值 类 型 
如 果 规 则 考虑 的 关联 是 项 的 出 现 与 否 , 则 它 是 布尔 关联 规则 。 例 如 ,下 面 的 规则 是 布尔 
关联 规则 。 
computer>financial_management_software (5-5) 
如 果 规 则 描述 的 是 量化 的 项 或 属性 之 间 的 关联 , 则 它 是 量化 关联 规则 。 在 这 种 规则 中 ， 
项 或 属性 的 量化 值 划分 为 区 间 。 下 面 的 规则 是 量化 关联 规则 的 一 个 例子 ,其 中 ,X 是 代表 
顾客 的 变量 ,量化 属性 age 和 income 已 离散 化 。 
age(X，30…90") ^income(X,"42k*…48k")—>buys(X,"high_resolution_TV") (5-6) 
布尔 关联 规则 处 理 的 值 都 是 离散 的 ,种 类 化 的 , 它 显 示 了 这 些 变 量 之 间 的 关系 ; 而 数值 
型 关联 规则 可 以 和 多 维 关联 或 多 层 关 联 规则 结合 起 来 ,对 数值 型 字段 进行 处 理 , 将 其 进行 动 
态 的 分 割 ,或 者 直接 对 原始 的 数据 进行 处 理 , 当 然 数 值 型 关联 规则 中 也 可 以 包含 种 类 变量 。 
2. 基于 规则 中 涉及 的 数据 维 数 分 类 
基于 规则 中 涉及 的 数据 维 数 ,关联 规则 可 以 分 为 单 维 关联 规则 和 多 维 关联 规则 。 在 单 
维 关联 规则 中 ,所 要 处 理 的 项 或 属性 每 个 只 涉及 一 个 维 , 则 它 是 单 维 关联 规则 ; 而 在 多 维 关 
联 的 规则 中 ,要 处 理 的 数据 将 会 涉及 多 个 维 。 换 言 之 , 单 维 关联 规则 是 处 理 单个 属性 中 的 一 
些 关 系 ; 多 维 关联 规则 是 处 理 各 个 属性 之 间 的 某 些 关 系 。 如 式 (5-5) 可 以 写作 式 (5-7) 的 
形式 : 
buys(X,"computer")>buys(X,"financial_ mangement_software") (5=7) 
式 (5-7) 是 单 维 关联 规则 ,因为 它 只 涉及 一 个 维 buys, 这 条 规则 只 涉及 用 户 购 买 的 物 
品 ; 式 (5-6) 是 一 个 多 维 关联 规则 ,因为 它 涉及 三 个 维 age、income 和 buys。 
3. 基于 规则 中 数据 的 抽象 层 分 类 
基于 规则 中 数据 的 抽象 层次 ,关联 规则 可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 。 
有 些 挖掘 关联 规则 的 方法 可 以 在 不 同 的 抽象 层次 上 发 现 规则 。 例 如 ,假定 挖掘 的 关联 
规则 集 包 含 下 面 的 规则 : 
age(X,"30.…90")>buys(X,"laptop computer") (5-8) 
age(X,"30.*…90")>buys(X,"computer") (5-9) 
在 上 面 的 两 个 规则 中 ,购买 的 商品 涉及 不 同 的 抽象 层 ( 即 “computer” 在 比 “laptop 
computer” 高 的 抽象 层 )。 我 们 称 所 挖掘 的 规则 集 由 多 层 关 联 规则 组 成 。 反 之 ,如 果 在 给 定 
的 规则 集中 ,规则 不 涉及 不 同 抽 象 层 的 项 或 属性 , 则 该 集合 包含 单 层 关 联 规则 。 
在 单 层 关联 规则 中 ,所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 ; 
而 在 多 层 关联 规则 中 ,对 数据 的 多 层 性 已 经 进行 了 充分 的 考虑 。 
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4. 基于 模式 与 规则 之 间 的 相互 关系 分 类 

基于 模式 与 规则 之 间 的 相互 关系 ,关联 规则 可 以 分 为 完全 频繁 模式 挖掘 ,最 大 频繁 模式 
挖掘 和 闭合 频繁 模式 挖掘 。 

5. 基于 关联 规则 所 涉及 的 关联 特性 来 进行 分 类 划分 

关联 规则 可 扩展 到 其 他 数据 挖掘 应 用 领域 ,如 进行 分 类 学 习 , 或 进行 相关 分 析 ( 即 可 以 
通过 相关 数据 项 出 现 或 不 出 现 进行 相关 属性 识别 与 分 析 ) 。 

由 于 应 用 环境 和 目的 不 同 , 在 以 上 多 种 关联 规则 挖掘 方法 中 ,一 维 单 层 布尔 型 关联 规则 
挖掘 方法 是 其 他 方法 的 基础 。 


5.4 关联 规则 的 研究 现状 


关联 规则 由 Agrawal 等 人 在 1993 年 提出 ,并 于 1994 年 提出 了 经 典 的 Apriori 算法 ,该 
算法 竟 定 了 关联 规则 挖掘 算法 的 基础 。 之 后 不 少 国内 外 学 者 、 机 构 对 关联 规则 挖掘 进行 了 
大 量 的 研究 ,扩展 到 从 关系 数据 库 、 空 间 数 据 库 和 多 媒体 数据 库 中 挖掘 关联 关系 ,并 且 要 求 
挖掘 通用 的 、 多 层次 的 、 用 户 感 兴趣 的 关联 规则 。 

为 了 提高 算法 挖掘 规则 的 效率 ,不 少 学 者 进行 了 大 量 的 研究 ,并 对 原 有 的 Apriori 算法 
进行 了 优化 ,如 引入 了 取 列 方法 ,事物 压缩 、 划 分 的 思想 ,随机 采样 和 动态 集 计数 等 ,但 这 些 
算法 都 不 能 避免 Apriori 系列 算法 固有 的 缺陷 , 即 需 要 多 次 重复 扫描 数据 库 , 而 且 可 能 产生 
大 量 的 候选 项 集 。 

针对 Apriori 算法 的 固有 缺陷 ,提出 了 不 产生 候选 挖掘 频繁 项 集 的 FP-growth 算法 , 实 
验 表明 ,FP-growth 算法 对 不 同 长 度 的 规则 都 有 很 好 的 适用 性 ,同时 该 算法 在 效率 上 有 巨大 
的 提高 。 但 如 果 大 项 集 的 数量 较 多 ,并 且 如 果 由 原 数 据 库 得 到 的 FP-Tree 的 分 支 很 多 且 分 
支 长 度 很 长 ,该 算法 将 需要 构造 出 数量 巨大 的 条 件 FP-Tree, 不 仅 费 时 而 且 要 占用 大 量 空 
间 ,挖掘 效率 不 高 ,而 且 递归 算法 本 身 效率 也 较 低 。 为 此 提出 许多 改进 的 算法 ,FP-growth 
算法 利用 FP-array 技巧 大 大 改善 了 挖掘 性 能 .提出 了 H-Min 算法 ,该 算法 使 用 了 一 种 超 链 
接 数 据 结构 H-struct, 能 在 挖掘 处 理 过 程 中 动态 地 修改 数据 链接 求 频繁 项 集 的 目的 。 

上 述 关联 规则 挖掘 算法 都 基于 两 个 前 提 : 事物 数据 库 中 的 元 组 数 不 变 ; 四 最 小 支持 
度 和 最 小 置信 度 不 变 。 如 何 处 理 动态 数据 库 ? 关联 规则 的 增 量 式 更 新 算法 就 是 针对 以 上 两 
个 前 提 不 成 立 的 关联 更 新 间 题 。 已 有 许多 研究 人 员 对 如 何 高 效 地 更 新 关联 规则 进行 了 分 析 
和 研究 ,并 提出 相应 的 算法 。 其 中 关联 规则 的 更 新 主要 涉及 以 下 4 个 方面 。 

(1) 在 给 定 的 最 小 支持 度 下 , 当 数 据 库 内 容 增加 时 关联 更 新 的 问题 。 

(2) 数据 库 不 变 , 最 小 支持 度 发 生变 化 的 关联 更 新 问题 。 

(3) 在 给 定 的 最 小 支持 度 和 置信 度 下 , 当 数 据 库 内 容 删 除 时 关联 更 新 的 问题 。 

(4) 在 实际 应 用 中 ,数据 库 内 容 和 最 小 支持 度 经 常 同时 发 生变 化 。 

随 着 应 用 和 技术 的 发 展 , 几 年 来 对 挖掘 关联 规则 技术 提出 了 更 新 的 要 求 , 如 在 线 挖掘 提 
高 挖掘 大 型 数据 库 的 计算 效率 、 减 小 I/O 开销 、 控 掘 定量 型 关联 规则 等 。 
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5.5 关联 规则 挖掘 算法 


5.5.1 Apriori 算法 


Apriori 算 法 是 R. Agrawal 和 R. Srikartt 于 1994 年 提出 的 一 种 最 具 影 响 力 的 挖掘 布 
尔 关联 规则 挖掘 频繁 项 集 的 算法 。 其 与 传统 算法 的 不 同 在 于 在 挖掘 时 利用 了 先 验 知识 。 
Agrawal 等 发 现 频繁 项 集 具 有 两 条 非常 重要 的 性 质 , 即 反 单 调 性 质 : 

性 质 5-1 频繁 项 集 的 子 项 集 必 为 频繁 项 集 。 

性 质 $-2 非 频繁 项 集 的 超 集 一 定 是 非 频 繁 的 。 

利用 上 述 两 个 性 质 ,Apriori 算法 使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 ,利用 上 项 集 来 探 
索 (k 十 1) 项 集 。Apriori 算法 的 频繁 项 集 产生 有 以 下 两 个 重要 的 特点 。 

(1) 首先 ,通过 扫描 数据 库 , 累 积 每 个 项 的 计数 ,并 收集 满足 最 小 支持 度 的 项 , 找 出 频繁 
1 项 集 的 集合 。 该 集合 记 作 Ll。 然后 ,Li 用 于 找 频繁 2 项 集 的 集合 L: ,LL 用 于 找 工 ,如 此 
下 去 ,直到 不 能 再 找到 频繁 & 项 集 。 找 每 个 需要 一 次 数据 库 全 扫描 。 

(2) 它 使 用 产生 -测试 策略 来 发 现 频繁 项 集 。 在 每 次 迭代 之 后 ,新 的 候选 项 集 由 前 一 次 
迭代 发 现 的 频繁 项 集 产 生 , 然 后 对 每 个 候选 的 支持 度 进行 计数 ,并 与 最 小 支持 度 阔 值 进行 比 
较 。 该 算法 需要 的 总 迭代 次 数 是 ks 十 1, 其 中 ,kw 是 频繁 项 集 的 最 大 长 度 。 

1. Apriori 算法 的 频繁 项 集 产生 

Apriori 算 法 的 基本 思想 是 先 找 出 所 有 的 频繁 项 集 , 然 后 由 频繁 项 集 产生 强 关联 规则 ， 
这 些 规则 必须 满足 最 小 支持 度 和 最 小 置信 和 度 。 

搜索 所 有 的 频繁 项 集 需 要 多 次 搜索 事务 数据 库 D, 这 是 影响 关联 算法 性 能 的 主要 因素 。 
Apriori 算法 是 用 大 1 频繁 项 集 生成 候选 的 A 频繁 项 集 , 但 候选 频繁 项 集 通常 是 很 大 的 , 例 
如 ,在 购物 篮 分 析 中 ,m 个 项 目 组 成 的 项 集 可 能 产生 2" 一 1 个 候选 频繁 项 集 以 及 3" 一 2 后 十 1 
个 关联 规则 。 但 在 一 般 的 情况 下 ,这 些 规则 大 部 分 不 能 满足 强 关联 规则 的 条 件 ,这 个 问题 成 
为 关联 规则 挖掘 的 瓶颈 。 因 此 ,减少 候选 集 的 大 小 ,然后 再 扫描 事务 数据 库 , 计 算 候选 项 集 
的 支持 度 是 必要 的 。 因 此 ,关联 规则 挖掘 的 关键 问题 是 如 何 高 效 地 找 出 频繁 项 集 。 

Apriori 算 法 利用 “频繁 项 集 的 任何 子 集 也 一 定 是 频繁 的 或 者 非 频 繁 项 集 的 超 集 一 定 是 
非 频繁 的 ”的 Apriori 先 验 性 质 减少 频繁 项 集 的 搜索 空间 。 如 图 5-1 所 示 为 位 ,iiia) 的 
项 集 格 ,这 种 结构 能 枚 举 所 有 可 能 的 项 集 。 假 设 {i ,i; ,i}) 是 频繁 项 集 ,那么 它 的 所 有 子 集 
fio) 、{ia)、{ia)、{iz ,is}、{is,i4) 都 是 频繁 的 。 反 之 ,如 果 { 志 ,is} 是 非 频繁 的 ,那么 它 的 所 有 
超 集 { 六 ,iz ,i3)、{ii ,iz ia)、(i1,iz si3,is) 都 是 非 频 繁 的 。 

假定 频繁 项 集 Le- 中 的 项 目 按 英文 字典 顺序 排列 ,由 (一 1) 频 繁 项 集 生成 候选 的 & 频 
繁 项 集 , 即 如 何 用 Le: 找 Li ,其 中 三 2, 需 要 进行 下 面 的 操作 : 候选 频繁 项 集 的 产生 和 修 
剪 。 这 个 步骤 需要 避免 产生 过 多 不 必要 的 ,重复 的 候选 频繁 项 集 , 也 不 能 遗漏 候选 频繁 

(1) 连接 步 : 为 找 Le ,通过 Le 将 与 自身 连接 产生 候选 项 & 项 集 的 集合 。 该 候选 项 集 
合 记 作 Ce。 设 上 和 习 是 志 ea: 中 的 项 集 。 记 号 4;[ 站 表示 24 中 的 第 7 项 (例如 ,LE 一 2] 表 示 
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的 倒数 第 2 项)。 为 了 有 效 实现 ,Apriori 算法 假定 事务 或 项 集中 的 项 按 字典 次 序 排序 。 对 
于 (k 一 1) 项 集 4;, 这 意味 着 将 项 排序 ,使 [1]< 4[2] 二 …<4i[k 一 1]。 执 行 连接 Le > 
Li ,其 中 ,Le 的 元 素 是 可 连接 的 ,如 果 它 们 的 前 (一 2) 个 项 相同 , 即 Le-; 的 元 素 L1 和 /是 
可 连接 的 ,如 果 (4[1]= 4s[1]) A (4[2]= 2[2])A…A(CaLA 一 2 一 lLk—2]) A [Lem 
1j 二 ls[k 一 1])。 条 件 [一 1 4s[k 一 1] 仅 仅 是 保证 不 产生 重复 。 连 接 4 和 ls 产生 的 结 


图 5-1 项 集 格 


果 项 集 是 {4[1],4[2],*… ,Wk 一 1],ls[k 一 1]}。 


(2) 剪 枝 步 : Ci 是 L; 的 超 集 ,也 就 是 说 ,Ci 的 成 员 可 以 是 频繁 的 ,也 可 以 不 是 频繁 的 ,但 
所 有 频繁 k 项 集 都 包含 在 Ci 中 。 扫 描 数据 库 , 确 定 Ci 中 每 一 候选 项 的 支持 度 计数 ,从 而 确 
定 Li( 即 根据 定义 ,计数 值 不 小 于 最 小 支持 度 计数 的 所 有 候选 是 频繁 的 ,从 而 属于 Le) 。 然 
而 ,Ci 可 能 很 大 ,这 样 所 涉及 的 计算 量 就 很 大 。 为 了 压缩 Ci, 可 以 采用 以 下 办 法 使 用 
Apriori 性 质 。 即 任何 非 频 繁 的 (k 一 1) 项 集 都 不 是 频繁 项 集 的 子 集 。 因 此 ,如 果 一 个 候选 
& 项 集 的 (4 一 1) 项 子 集 不 在 Le 中 , 则 该 候选 也 不 可 能 是 频繁 的 ,从 而 可 以 从 Ci 中 删除 。 


这 种 子 集 测试 可 以 使 用 所 有 频繁 项 集 的 散 列 树 快 速 完成 。 
该 算法 及 其 相关 过 程 可 以 描述 为 如 下 情形 。 
Apriori 算法 : 使 用 逐 层 和 迭代 方法 基于 候选 产生 找 出 频繁 项 集 。 
输入 : D: 事务 数据 库 ; min_sup: 最 小 支持 度 计算 阔 值 。 
输出 : 工 : D 中 的 频繁 项 集 。 
处 理 流程 如 下 。 


(1) Di = find frequent 1 - itemsets(D); // 根 据 min_sup, 发 现 频 繁 1 项 集 
(2) for(k = 2; -天 9’ k++){ 


(3) 
(4) 
(5) 
(6) 
(7) 


Ce = apriori_gen(Le-i，min_sup ); // 频 繁 (k-1) 项 集 生成 候选 k 项 集 
for each 事务 tED1{ // 扫 描 数 据 库 D, 确 定 每 个 候选 项 集 的 支持 度 
Ce = subset(C., t); // 得 到 上 所 包含 候选 项 集 
for each 候选 cE Ce 
ccGount+ +3 于 // 对 候选 项 集 进行 支持 度 计数 
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(8) I = {fcECce | c.count>min sup}; }/ 获 得 频繁 k 项 集 
(9) return L= UI; 

Procedure apriori gen(I, 1: frequent(k— 1) - itemsets) 

(1) for each 项 集 11 Eli 

(2) for each 项 集 1 E-: 


(3) if (1[1] = 1[1]) 人 A(l[2] = 1[2]) 人 人 ... 人 (li[k-2] = lk-2])A(L[k-1] = 
la[k-2]){ 

(4) c=l>ql: // 连 接 步 : 产生 候选 

(5) if has_infrequent_subset(c，Lx_-: ) then 

(6) delete c; // 剪 枝 步 : 删除 非 频繁 的 候选 项 集 

(7) elseG= GUt{c}; } 


(8) return Cx ; 

Procedure has infrequent subset(c, DL._,) 
(1) for each (k—1)— subset s of c 

(2) if sb then 

(3) return TRUE; 

(4) else return FALSE; 


Apriori 算法 的 (1) 步 找 出 频繁 1 项 集 的 集合 Li 。 在 第 (2) 一 (8) 步 ,对 于 &A 之 2,Le-: 用 
于 产生 候选 Ci ,以 便 找 出 Le 。apriori_gen 过 程 产生 候选 ,然后 使 用 Apriori 性 质 删除 那些 
具有 非 频 繁 子 集 的 候选 (步骤 (3)) 。 一 旦 产生 了 所 有 候选 ,就 扫描 数据 库 ( 步 骤 (4))。 对 于 
每 个 事务 ,使 用 subset 函数 找 出 该 事务 中 是 候选 的 所 有 子 集 (步骤 (5)) ,并 对 每 个 这 样 的 候 
选 累加 计数 (步骤 (6) 和 (7))。 最 后 ,所 有 满足 最 小 支持 度 的 候选 (步骤 (8) ) 形 成 频繁 项 集 的 
集合 L( 步 又 (9))。 然 后 调用 一 个 过 程 ,由 频繁 项 集 产生 关联 规则 。 

apriori_gen 函数 做 连接 和 前 枝 。 在 连接 部 分 ,Li_1 与 Le 连接 产生 可 能 的 候选 (步骤 
(1) 一 (4))。 在 剪 枝 部 分 (步骤 (5)~(7)) ,使 用 Apriori 性 质 删 除 具 有 非 频繁 子 集 的 候选 。 
非 频 繁 子 集 的 测试 显示 在 过 程 has_infrequent_subset 中 。 

【 例 5-2】 基于 表 5-1 的 AllElectronics 的 事务 数据 库 D。 

该 数据 库 中 有 9 个 事务 , 即 1D| 二 9。 假 定 事务 中 的 项 按 字 典 次 序 存放 ,使 用 图 5-2 解 
释 Apriori 算法 寻找 D 中 的 频繁 项 集 。 

表 5-1 AllElectronics 某 分 店 的 事务 数据 


交易 ID 购买 商品 ID 列表 交易 ID 购买 商品 ID 列表 
To01 i siz sis T006 isz sis 
T002 issit T007 sis 
To003 izsis T008 站 ia sis sis 
To04 i siz si To09 sis si 
TO05 isis 


(1) 在 算法 的 第 一 次 迭代 中 ,每 项 都 是 候选 1 项 集 的 集合 Ci 的 成 员 。 算 法 简单 地 扫描 
所 有 事务 ,对 每 项 的 出 现 次 数 计数 。 

(2) 假设 最 小 事务 支持 度 计 数 为 2, 即 min_sup 王 2( 这 里 谈论 的 是 绝对 支持 度 , 因 为 使 
用 的 是 支持 度 计 数 。 对 应 的 相关 度 为 2/9 二 22%)。 可 以 确定 频繁 1 项 集 的 集合 L; 。 它 由 
满足 最 小 支持 度 的 候选 1 项 集 组 成 。 在 该 例 中 ,Ci 中 的 所 有 候选 都 满足 最 小 支持 度 。 

(3) 为 了 发 现 频 繁 2 项 集 的 集合 L; ,算法 使 用 Li [xd L* 产 生 候 选 2 项 集 的 集合 Cs 。C。 
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由 Ci | 个 2 项 集 组 成 。 注 意 ,在 剪 校 步 ,没有 候选 从 C* 中 删除 ,因为 这 些 候 选 的 每 个 子 集 


也 是 频繁 的 。 
(4) 下 一 步 ,扫描 D 中 的 事务 ,计算 Cs 中 每 个 候选 项 集 的 支持 度 计数 , 如 图 5-2 的 第 二 
行 的 中 间 的 表 所 示 。 
en 六 
项 保志 持 度 计 数 | 比较 候选 支持 度 计数 | 项 集 | 支持 度 计数 
扫描 D， 对 每 选 支持 度 和 
个 候选 计数 与 最 小 支持 度 计数 区 
th 7 
{6} 6 {3 6 
{4} 2 iy 2 
{5 2 {is} 2 
2 三 
个 人 比较 候选 支 ”全 
庆 上 项 集 | 支持 度 计数 | 持 度 计数 与 | 项 集 [支持 度 计数 
候选 C， 和 站 | 扫 描 D， 对 每 | 入， 二 4 最 小 支持 度 fi, 记 } 4 
fil， 三) | 个 候选 计数 | 5, 4 计数 ti 
pa ay | {| 2 
ee (i 。 {i, 3} 4 
ee ee fh 2 
fh, td| 2 oi 
2 2 
th, is} {h, 15} 2 {i, is} 
{hi fh 0 
{i, is} {63, is} 1 
(is 辣 ti | 0 
局 
5 比较 候选 支 = 
扫描 D， _ 持 度 计数 与 | ”项 集 攻 沁 
由 zz 产生 | 。 项 集 | 对 每 个 候 | 项 集 | 支持 度 | 最 小 支持 度 计数 
候选， 选 计数 | ” ” | 计数 | 计数 mm 2 
tl | 2 | 2 
{il, i, is} {il, b, is} 2 


图 5-2 ”候选 项 集 和 频繁 项 集 的 产生 ,最 小 支持 度 计 数 为 2 


(5) 然后 确定 频繁 2 项 集 的 集合 L; , 它 由 Cs 中 满足 最 小 支持 度 的 候选 2 项 集 组 成 。 

(6) 候选 3 项 集 的 集合 Cs 的 产生 详细 地 排列 在 图 5-3 中 。 在 连接 步 ,首先 令 Cs: 一 L。 
网 下 三 全 站 二 (看 和 (二 和 (二 二 站 根据 和 pic 
性 质 , 频 繁 项 集 的 所 有 子 集 必须 也 是 频繁 的 ,可 以 确定 后 4 个 候选 不 可 能 是 频繁 的 。 因 此 ， 
把 它们 从 Cs 中 删除 ,这 样 ,在 此 后 扫描 DD 确定 Ls 时 就 不 必 再 求 它们 的 计数 值 。 注 意 ,由 于 
Apriori 算法 使 用 逐 层 搜索 技术 ,给 定 一 个 候选 项 集 , 只 需要 检查 它们 的 (一 1) 子 集 是 否 
频繁 。C; 剪 枝 后 的 版 本 在 图 5-2 底部 的 第 一 个 表 中 给 出 。 

(7) 扫描 中 的 事务 确定 工 : , 它 由 C; 中 满足 最 小 支持 度 的 候选 3 项 集 组 成 (如 图 5-2 
所 示 )。 

(8) 算法 使 用 Ls P< Ls 产生 候选 4 项 集 的 集合 C,。 尽 管 连接 产生 结果 { {i ,is ,is ,is}}， 
但 是 这 个 项 集 被 剪 去 ,因为 它 的 子 集 {{is ,is ,is)}) 不 是 频繁 的 。 这 样 ,C, 二 如 ,算法 终止 , 找 
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@ 连接 : Cs; 二 Lz DALs= (iisio} ,ivis) (ivis} {io vis} {ios} {isis}} D4 


人 人 


出 了 所 有 的 频繁 项 集 。 


={{iio is} {i vi sis} {isis sis}s (io ois sia)}s (io sis sis}s (io si ris}} 
@ 使 用 Apriori 性 质 剪 枝 : 频繁 项 集 的 所 有 非 空 子 集 也 必须 是 频繁 的 。 候 选项 的 子 集 有 不 频繁 
的 吗 ? 

(a) {i ,issis) 的 2 项 子 集 是 {1 i),{is ,ia) (i,i3)。{i1,is ,i3} 的 所 有 2 项 子 集 都 是 志 : 的 
元 素 。 
因此 ,fa 人 a} 保 留 在 Cs 中 。 

(b) {viz sis) 的 2 项 子 集 是 wiz),(i iis},(iz sis)。{i4 siz,is} 的 所 有 2 项 子 集 都 是 工 的 
元 素 。 
因此 ,{ai ,is) 保 留 在 Cs 中。 
(c) {wis iis) 的 2 项 子 集 是 {i3) {i ,is),{is sis)。{is,is) 不 是 L, 的 元 素 , 因 而 不 是 频繁 
的 。 因 此 ,从 C; 中 删除 {i ,is ,is)。 

(d) {iz ,is si} 的 2 项 子 集 是 (is ,i3),{iz si),{is vi}。{is sa} 不 是 工 ,的 元 素 , 因 而 不 是 频繁 
的 。 因 此 ,从 Cs 中 删除 {is ,is ,i)。 

(e) {iz vis vis} 的 2 项 子 集 是 {i ,3),({is sis},{is vis}。{is sis} 不 是 工 ,的 元 素 ,因而 不 是 频繁 
的 。 因 此 ,从 Cs; 中 删除 (is ,is ,is)。 

(CO {iz si vs) 的 2 项 子 集 是 fis si) {is vis),{i4wis}。{i4wis} 不 是 工 ; 的 元 素 , 因 而 不 是 频繁 
的 。 因 此 ,从 Cs 中 删除 {is ,i ,is)。 

图 这 样 , 剪 枝 后 C3 二 {iviz via), (ilsiz sis}}。 


图 5-3 使 用 Apriori 性 质 , 由 工 :产生 和 剪 枝 候选 3 项 集 的 集合 Cs 


2. Apriori 算法 计算 复杂 度 

Apriori 算法 的 计算 复杂 度 受 如 下 因素 影响 。 

(1) 支持 度 阔 值 。 降 低 支 持 度 阔 值 通常 将 导致 更 多 的 频繁 项 集 。 这 给 算法 的 计算 复杂 
度 带 来 不 利 影响 ,因为 必须 产生 更 多 候选 项 集 并 对 其 计数 。 随 着 支持 度 阔 值 的 降低 ,频繁 项 
集 的 最 大 长 度 将 增加 ,导致 算法 需要 扫描 数据 集 的 次 数 也 将 增多 。 

(2) 项 数 ( 维 数 ) 。 随 着 项 数 的 增加 ,需要 更 多 的 空间 来 存储 项 的 支持 度 计 数 。 如 果 频 
繁 项 集 的 数目 也 随 着 数据 项 数 增 加 而 增长 , 则 由 于 算法 产生 的 候选 项 集 更 多 ,计算 量 和 1/O 
开销 将 增加 。 

(3) 事务 数 。 由 于 Apriori 算法 反复 扫描 数据 集 , 因 此 它 的 运行 时 间 随 着 事务 数 的 增加 
而 增加 。 

(4) 事务 的 平均 宽度 。 对 于 密集 数据 ,事务 的 平均 宽度 可 能 很 大 ,这 将 在 两 个 方面 影响 
Apriori 算法 的 复杂 度 : 首先 ,频繁 项 集 的 最 大 长 度 随 事务 平均 宽度 的 增加 而 增加 ,因而 ,在 
候选 项 产生 和 支持 度 计数 时 必须 考察 更 多 候选 项 集 ; 其 次 , 随 着 事务 宽度 的 增加 ,事务 中 将 
包含 更 多 的 项 集 , 这 将 增加 支持 度 计 数 时 散 列 树 的 遍历 次 数 。 

3. 关联 规则 产生 

一 旦 由 数据 库 D 中 的 事务 找 出 频繁 项 集 ,可 直接 由 它们 产生 强 关 联 规则 ( 强 关联 规则 
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满足 最 小 支持 度 和 最 小 置信 和 度 )。 对 于 置信 度 , 可 以 用 式 (5-3) 计 算 。 为 完整 起 见 , 这 里 重 
新 给 出 该 式 : 


confidenceCA=>B) = PC | AY = support(A U B) _ support count(A U B) 


support(A) support_count(A) 
条 件 概 率 用 项 集 的 支持 度 计算 表示 ,其 中 ,support_count(AUB) 是 包含 项 集 A4UB 的 
事务 数 ,而 support_count(4) 是 包含 项 集 4 的 事务 数 。 根 据 该 式 ,关联 规则 可 以 产生 如 下 : 
(1) 对 于 每 个 频繁 项 集 1, 产 生 1 的 所 有 非 空 子 集 。 
(2) 对 于 1 的 每 个 非 空子 集 ; ,如 果 


Support_count(t) = (5-10) 
support_count(s) 


则 输出 规则 “s 过 (1 一 s) ”其 中 ,min_conf 是 最 小 置信 和 度 阔 值 。 
由 于 规则 由 频繁 项 集 产生 ,每 个 规则 自动 地 满足 最 小 支持 度 。 频 繁 项 集 连 同 它们 的 支 
持 度 计数 预先 存放 在 散 列表 中 ,可 以 快速 访问 。 
【 例 5-3】 产生 关联 规则 。 
基于 表 5-1 中 AllElectronics 事务 数据 库 的 例子 。 假 定数 据 包含 频繁 项 集 /= {i ,i,， 
is}。 可 以 由 /产生 哪些 关联 规则 ? 
的 非 空 子 集 有 (is) ,is) (iz sis},({ 谋 ),{is} 和 {is}, 即 可 以 由 /产生 6 个 候选 关 
联 规则 ,结果 如 下 ,每 个 都 列 出 置信 和 度 : 
{i, is}S>is, confidence = 2/4 = 50% 
{il, is}S>i,, confidence = 2/2 = 100% 
{is, is}i, confidence = 2/2 = 100% 
{is, is}, confidence = 2/6 = 33% 
is{il, is}, confidence = 2/7 = 29% 
is{il, is}, confidence = 2/2 = 100% 
如 果 最 小 置信 度 阔 值 为 70% , 则 只 有 上 面 第 2.3 和 最 后 一 个 规则 可 以 输出 ,因为 只 有 
这 些 产 生 强 规则 。 注 意 ,与 传统 的 分 类 规则 不 同 ,关联 规则 的 右 端 可 能 包含 多 个 合 取 项 。 


5.5.2 Apriori 改进 算法 


Apriori 作为 经 典 的 频繁 项 集 生成 算法 ,在 数据 挖掘 中 具有 里 程 碑 的 作用 。 但 是 随 着 研 
究 的 深入 ,Apriori 算法 有 以 下 两 个 致命 的 性 能 瓶颈 。 

(1) 多 次 扫描 事务 数据 库 ,需要 很 大 的 IO 负载 。 

(2) 可 能 产生 庞大 的 候选 集 。 
因此 ,包括 Agrawal 在 内 的 许多 学 者 提出 了 Apriori 算法 的 改进 算法 。 

1. 基于 散 列 和 压缩 技术 的 方法 

基于 散 列 的 算法 是 由 Park 等 人 在 1995 年 提出 的 。 通 过 实验 发 现 寻 找 频繁 项 集 的 主要 
计算 量 是 花 在 生成 频繁 2 项 集 L, 上 ,因此 ,Park 等 人 利用 这 个 性 质 引入 散 列 技术 来 改进 产 
生 频 繁 2 项 集 的 方法 。 

其 基本 思想 是 : 当 扫 描 数 据 库 中 的 每 个 事务 ,由 C, 中 的 候选 1 项 集 产生 频繁 1 项 集 工 ， 
时 ,可 以 对 每 个 事务 产生 所 有 的 2 项 集 , 将 它们 散 列 ( 即 映射 ) 到 散 列表 结构 的 不 同 桶 中 ,并 
增加 对 应 的 桶 计数 (如 表 5-2 所 示 )。 在 散 列 表 中 对 应 的 桶 计数 低 于 支持 度 闷 值 的 2 项 集 不 
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可 能 是 频繁 的 ,因而 应 当 从 候选 项 集中 删除 。 这 种 基于 散 列 的 技术 可 以 显著 压缩 要 考察 的 
候选 项 集 。 

例如 , 散 列 函数 为 h(x,y) 二 ((order of x)X10 十 (order of y) ) mod 7 的 候选 2 项 集 的 
散 列表 如 表 5-2 所 示 。 


表 5-2 候选 2 项 集 的 散 列表 


桶 地 址 0 1 3 4 5 6 
桶 计数 2 2 4 2 EF 4 4 

{iz sis} {1 9i2} {i sis} 

i 人 人 {iz ,i3} {iz sa} {iz sis} {1 +i2} {i 9is} 

Wy | i | ny | si | i | i tis} 

{i is} {i i) 人 


Agrawal 等 人 提出 压缩 进一步 迭代 扫描 的 事务 数 的 方法 。 因 为 不 包含 任何 项 集 的 事 
务 将 不 可 能 包含 任何 十 1 项 集 ,可 给 这 些 事务 加 上 删除 标志 ,扫描 数据 库 时 不 再 考虑 。 事 
实 上 ,基于 散 列 的 技术 也 是 一 种 压缩 方法 。 

2. 基于 划分 的 方法 

基于 划分 的 Apriori 算法 只 需 对 数据 库 进行 两 这 扫描 ,同时 把 交易 数据 库 分 割 为 若干 
个 互 不 相连 的 部 分 ,并 且 使 每 个 分 割 部 分 的 大 小 足以 一 次 读 入 可 以 获得 的 内 存 空间 。 

基于 划分 的 方法 所 遵循 的 一 个 基本 思想 是 : 对 于 整个 交易 数据 库 而 言 , 如 果 一 个 项 集 
是 频繁 项 集 ,那么 它 必然 有 这 样 的 结果 , 即 至 少 在 一 个 分 割 的 部 分 内 它 是 频繁 的 。 

3. 抽样 

抽样 方法 的 基本 思想 是 : 选取 给 定数 据 D 的 随机 样本 S ,然后 在 S 中 搜索 频繁 项 集 。 
用 这 种 方法 ,虽然 牺牲 了 一 些 精度 但 换取 了 有 效 性 。 样 本 S 的 大 小 选取 使 得 可 以 在 内 存 中 
搜索 S 的 频繁 项 集 。 这 样 ,总 共 只 需要 扫描 一 次 S 中 的 事务 。 由 于 搜索 S 中 而 不 是 中 的 
频繁 项 集 ,可 能 丢失 一 些 全 局 频繁 项 集 。 为 减少 这 种 可 能 性 ,使 用 比 最 小 支持 度 低 的 支持 度 
阔 值 来 找 出 S 中 局 部 的 频繁 项 集 ( 记 作 Ls)。 然 后 ,数据 库 的 其 余部 分 用 于 计算 Ls 中 每 个 
项 集 的 实际 频率 。 使 用 一 种 机 制 来 确定 是 否 所 有 的 频繁 项 集 都 包含 在 Ls 中 。 如 果 Ls 实际 
包含 D 中 的 所 有 频繁 项 集 , 则 只 需要 扫描 一 次 D。 和 否则 ,可 以 做 第 二 次 扫描 ,以 找 出 在 第 一 
次 扫描 时 遗漏 的 频繁 项 集 。 当 效率 最 为 重要 时 ,如 计算 密集 的 应 用 必须 频繁 运行 时 ,抽样 方 
法 特别 合适 。 

4. 增 量 更 新 的 方法 

首 量 更 新 的 方法 的 基本 思想 是 使 用 该 技术 来 对 所 发 现 的 频繁 项 集 和 相应 的 关联 规则 进 
行 维护 ,以 便 在 数据 库 发 生变 化 时 避免 对 所 有 的 频繁 项 集 和 相应 的 关联 规则 重新 进行 挖掘 
分 析 , 即 只 对 发 生变 化 的 那 部 分 数据 进行 关联 分 析 。 

需要 注意 的 是 ,对 数据 库 的 更 新 可 能 使 得 那些 原来 非 频 繁 的 项 集 变 成 频繁 项 集 ,同时 也 
会 把 频繁 项 集 变 成 非 频繁 项 集 。 实 际 上 ,该 方法 就 是 对 旧 的 频繁 项 集 的 信息 的 重复 使 用 , 同 
时 集成 了 新 产生 的 频繁 项 集 的 支持 度 方面 的 信息 ,这样 可 以 充分 地 缩减 需要 重复 检查 的 候 
选项 集 所 占用 的 空间 。 
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5. 动态 项 集 计 数 

动态 项 集 计 数 将 数据 库 划分 为 用 开始 点 标记 的 块 。 不 像 Apriori 算法 仅 在 每 次 完整 的 
数据 库 扫 描 之 前 确定 新 的 候选 ,在 这 种 变形 中 ,可 以 在 任何 开始 点 添加 新 的 候选 项 集 。 该 技 
术 动 态 地 评估 已 计数 的 所 有 项 集 的 支持 度 , 如 果 一 个 项 集 的 所 有 子 集 已 确定 为 频繁 的 , 则 添 
加 它 作 为 新 的 候选 。 结 果 算 法 需要 的 数据 库 扫 描 比 Apriori 算法 少 。 


5.5.3 ”FP 增长 算法 


尽管 Apriori 算法 利用 频繁 项 集 的 任何 子 集 也 是 频繁 的 启发 式 ,减少 了 候选 频繁 项 集 
的 大 小 ,但 仍然 会 产生 大 量 的 候选 频繁 项 集 ,对 事务 数据 库 的 重复 扫描 带 来 很 大 的 开销 。 

为 此 ,Jiawei Han 等 人 于 2000 年 提出 了 不 产生 候选 挖掘 频繁 项 集 的 方法 , 即 频 繁 模式 
增长 (Frequent-Pattern Growth) 算 法 ,简称 FP 增长 算法 。 该 算法 的 基本 思想 是 采用 分 治 
策略 首先 ,将 代表 频繁 项 集 的 数据 库 压缩 到 一 棵 频繁 模式 树 (Frequent-Pattern Tree,FP 
树 ) ,该 树 仍 保留 项 集 的 关联 信息 。 其 次 ,将 这 种 压缩 后 的 数据 库 划 分 成 一 组 条 件数 据 库 ( 一 
种 特殊 类 型 的 投影 数据 库 ) ,每 个 数据 库 关 联 一 个 频繁 项 或 “模式 段 ”, 并 分 别 挖掘 每 个 条 件 
数据 库 。 对 于 每 个 “模式 片段 ", 只 需要 考察 与 它 相 关联 的 数据 集 。 因 此 , 随 着 被 考察 的 模式 
的 “增长 ”, 这 种 方法 可 以 显著 地 压缩 被 搜索 的 数据 集 的 大 小 。 下 面 重点 介绍 FP 增长 算法 
的 FP 树 构造 和 频繁 项 集 产生 。 

1. FP 树 构造 

FP 树 是 事务 数据 库 的 压缩 表示 ,每 个 事务 都 映射 到 FP 树 中 的 一 条 路 径 。 不同 的 事务 
可 能 包含 若干 相同 的 项 目 ,因此 这 些 路 径 会 有 所 重 释 ,使 得 事务 数据 能 得 到 一 定 程度 的 压 
缩 。 使 用 频繁 模式 增长 方法 ,重新 考察 例 5-2 中 的 表 5-1 的 事务 数据 库 D 的 挖掘 。FP 增 
长 算法 挖掘 频繁 项 集 的 过 程 如 下 。 

(1) 首先 搜索 事务 数据 库 DD, 找 到 频繁 1 项 集 的 集合 及 其 支持 度 计数 。 设 最 小 支持 度 
计数 为 2。 频繁 项 的 集合 按 支持 度 计 数 的 递减 排序 ,其 结果 集 或 列表 记 为 L, 这 里 上 = 二 [is: 
TR Guiay Orioe 2 yios 2 

(2) 构造 FP 树 。 创 建 FP 树 的 根 结 点 ,用 符号 “null" 标 记 。 第 二 次 搜索 事务 数据 库 DD， 
每 个 事务 中 的 项 按 工 中 的 次 序 排列 ( 即 按 递减 支持 度 计数 排序 ) ,并 对 每 个 事务 创建 由 根 结 
点 null 出 发 的 一 个 分 支 。 

例如 ,对 表 5-1 事务 数据 库 进 行 关联 规则 挖掘 ,第 一 个 事务 T001 按 工 的 次 序 为 {is ,i ， 
is)。 构 造 FP 树 的 第 一 个 分 枝 过 (za : 1) ,Ga: 1).(G5s: 1) 记 ,其 中 的 数字 表示 结 点 的 计数 ,i。 
作为 根 的 子女 链接 到 根 结 点 ,i 链接 到 i ,is 链 接 到 ii 。 读 取 第 二 个 事务 T002, 按 工 的 次 序 
包含 项 i 入, 它 导致 一 个 分 枝 ,其 中 i, 链接 到 根 ,i, 链 接 到 i,。 然 而 ,该 分 枝 应 当 与 T001 
已 存在 的 路 径 共享 前 缀 i 。 这 样 将 结 点 i 的 计数 增加 1, 并 创建 一 个 新 结 点 二 i: 1 二 作为 
二 is: 2 这 的 子女 链接 。 一 般 地 , 当 为 一 个 事务 考虑 增加 分 枝 时 , 沿 共同 前 级 上 的 每 个 结 点 
的 计数 增加 1, 为 在 前 缀 之 后 的 项 创建 结 点 和 链接 。 

为 方便 树 遍历 ,创建 一 个 项 头 表 , 使 每 项 通过 一 个 结 点 链 指向 它 所 在 树 中 的 位 置 。 扫 描 
所 有 的 事务 之 后 得 到 的 树 如 图 5-4 所 示 , 带 有 相关 的 结 点 链 。 这 样 ,数据 库 频繁 模式 的 挖掘 
问题 就 转换 成 挖掘 FP 树 问 题 。FP 树 还 包含 链接 具有 相同 结 点 的 指针 列表 ,在 图 5-4 中 用 
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虚线 表示 。 


nullf} 


支持 度 计数 ” 结 点 链 
项 ID 1 了 
< 
\ 


图 5-4 存放 压缩 的 频繁 模式 信息 的 FP 树 


2. FP 树 的 挖掘 过 程 


由 每 个 长 度 为 1 的 频繁 模式 (初始 后 缀 模式) 开始, 构造 它 的 条 件 模 式 基 (一 个 “ 子 数据 
库 ” 由 FP 树 中 与 后 级 模式 一 起 出 现 的 前 级 路 径 集 组 成 ) ,然后 ,构造 它 的 条 件 FP 树 ,并 递归 
地 对 该 树 进行 挖掘 。 模 式 增长 通过 后 级 模式 与 条 件 FP 树 产生 的 频繁 模式 连接 实现 。 

该 FP 树 的 挖掘 总 结 在 表 5-3 中 ,细节 如 下 。 首 先 考虑 is , 它 是 L 中 的 最 后 一 项 ,而 不 
是 第 一 个 。 从 表 的 后 端 开始 的 原因 随 着 解释 FP 树 挖掘 过 程 就 会 清楚 。is 出 现在 图 5-4 的 
FP 树 的 两 个 分 枝 (is 的 出 现 沿 它 的 结 点 链 容易 找到 )。 这 些 分 枝 形成 的 路 径 是 二 j,i,is:1> 
和 过 is,iiviswis:1 之 。 因 此 ,考虑 is 的 条 件 模式 基 , 它 的 两 个 对 应 前 缀 路径 是 过 i, ,i :1 这 和 
过 iz,iisis :1 之 ,形成 i 的 条 件 模 式 基 。 它 的 条 件 FP 树 只 包含 单个 路 径 过 is: 2,i: 2 二 ,不 
包含 i, 因为 它 的 支持 度 计数 为 1, 小 于 最 小 支持 度 计数 。 该 单个 路 径 产 生 频 繁 模式 的 所 有 


组 合 : {iz sis: 2} (isis: 2} {izsiisis: 2}。 


表 5-3 通过 创建 条 件 子 模式 基 挖掘 FP 树 


项 前 缀 路 径 条 件 FP 树 产生 的 频繁 项 集 

i (is 1}, {iz si sis: 1} <is: 2: 2> {ississ 2} {i siss 2}, (is od iss 2} 
i | (iosii: 1}, {io: 1} <i:2> {issia: 2} 

is | (isi 2} (io: 2} (i: 2} | < io: 4si: 2>,<i: 2> | (isis: 4), {i sis: 4), {iz si sis: 2} 
i | (is: 4} <i:4> {iz oii: 4} 


访 的 两 个 前 缀 路 径 形成 条 件 模 式 基 (i mi: 1}, {is: 1) ,产生 单 结 点 的 条 件 FP 树 二 i,: 
2 二 ,并 导出 一 个 频繁 模式 {i ,is: 2}。 注 意 ,尽管 i 跟 在 第 一 个 分 枝 中 的 i 之 后 ,也 没有 必 
要 在 此 分 析 中 包含 is ,因为 涉及 i 的 频繁 模式 在 考察 is 时 已 经 分 析 过 。 

与 以 上 分 析 类 似 ,is 的 条 件 模式 基 是 {i ,i : 2),{ is: 2}, 全 :2)}。 它 的 条 件 FP 树 有 两 
个 分 枝 < i : 4 和 : 2 二 ,过 i : 2 之 , 它 产生 模式 集 {is ,is: 4), {i is: 4}, {iz ,ilsis: 2)。 

最 后 元 的 条 件 模式 基 { is: 4) , 它 的 FP 树 只 包含 一 个 结 点 二 is : 4, 产 生 一 个 模式 {i,， 
ts 
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5.6 改善 关联 规则 挖掘 质量 问题 


如 上 所 述 ,关联 规则 挖掘 普遍 使 用 "支持 度 -可 信和 度 ? 度 量 机 制 。 一 般 地 讲 ,不 加 额外 的 
限制 条 件 会 产生 大 量 的 规则 。 这 些 规则 并 不 是 对 用 户 都 有 用 的 或 感 兴趣 的 。 衡 量 关联 规则 
挖 气 结 果 的 有 效 性 应 该 从 多 种 综合 角度 来 考虑 。 

(1) 准确 性 : 挖掘 出 的 规则 必须 反映 数据 的 实际 情况 。 尽 管 规则 不 可 能 是 100% 适 用 
的 ,但 是 必须 要 在 一 定 的 可 信 度 内 。 

(2) 实用 性 : 挖掘 出 的 规则 必须 是 简洁 可 用 的 ,而 且 是 针对 挖掘 目标 的 。 不 能 有 100 条 
规则 ,其 中 50 条 与 商业 目标 无 关 ,30 条 用 户 无 法 理解 。 

(3) 新 颖 性 : 挖掘 出 的 关联 规则 可 以 为 用 户 提供 新 的 有 价值 信息 。 如 果 它们 是 用 户 
先 就 知道 的 ,那么 这 样 的 规则 即使 正确 也 是 毫 无 价值 的 。 

改善 关联 规则 挖掘 质量 是 一 件 很 困难 的 工作 。 必 须 采 用 事先 预防 、 过 程控 制 以 及 事后 
评估 等 多 种 方法 ,其 中 使 用 合适 的 机 制 (如 约束 ), 让 用 户主 动 参与 挖掘 工作 是 解决 问题 的 关 
键 。 粗 略 地 说 ,可 以 在 用 户主 观 和 系统 客观 两 个 层面 上 考虑 关联 规则 挖掘 的 质量 问题 。 


5.6.1 用 户主 观 层面 


事实 上 ,一 个 规则 是 否 有 用 最 终 取决 于 用 户 的 感觉 。 只 有 用 户 可 以 决定 规则 的 有 效 性 、 
可 行 性 ,所 以 应 该 将 用 户 的 需求 和 系统 更 加 紧密 地 结合 起 来 。 约 束 数据 挖掘 可 以 为 用 户 参 
与 知识 发 现 工作 提供 一 种 有 效 的 机 制 。 

用 户 可 以 在 不 同 的 阶段 、 使 用 不 同 的 方法 来 主观 设 定 约束 条 件 。 例 如 ,可 以 把 约束 作为 
算法 的 参数 和 算法 有 机 结合 ,也 可 以 以 交互 方式 进行 不 同 的 尝试 ; 可 以 事先 根据 挖掘 目标 
设 定 ,还 可 以 作为 事后 评估 规则 的 依据 ; 可 以 在 数据 预 处 理 阶段 用 来 减少 数据 量 , 也 可 以 对 
知识 形式 进行 约束 以 减少 尝试 路 径 。 

从 被 约束 的 对 象 来 看 ,下 面 是 数据 挖掘 中 常用 的 几 种 约束 机 制 。 

1. 知识 类 型 的 约束 

对 于 不 同 的 商业 应 用 问题 ,特定 的 知识 类 型 可 能 更 能 反映 问题 。 如 前 所 述 ,一 个 多 策略 
的 知识 发 现 工具 可 能 提供 多 种 知识 表示 模式 ,因此 需要 针对 应 用 问题 选择 有 效 的 知识 表达 
模式 。 例 如 ,如 果 一 个 商业 企业 希望 根据 客户 特点 进行 有 针对 性 的 销售 ,那么 使 用 分 类 或 聚 
类 形式 可 以 帮助 用 户 形成 客户 群 。 用 户 可 以 设 定 明 确 的 挖掘 知识 模式 ,减少 不 必要 的 模式 
探索 ,增强 挖掘 的 实用 性 。 

2. 数据 的 约束 

对 数据 的 约束 可 以 起 到 减少 数据 挖掘 算法 所 用 的 数据 量 、 提 高 数据 质量 等 作用 。 用 户 
可 以 指定 对 哪些 数据 进行 控 掘 ,通过 指定 约束 把 粗糙 的 、 混 杂 的 庞大 源 数 据 集 逐 步 压 缩 到 与 
任务 相关 的 数据 集 上 。 在 不 同 的 阶段 ,可 以 通过 数据 挖掘 语言 实施 数据 约束 。 例 如 ,目前 研 
究 的 数据 挖掘 操纵 语言 大 都 支持 数据 约束 的 设 定 。 

3. 维 /层次 约束 

对 于 一 个 基于 数据 仓库 或 多 维 数据 库 的 数据 挖掘 工作 来 说 ,不 同 的 维 为 用 户 提供 了 不 
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同 粒度 的 数据 和 对 数据 的 不 同 视 点 。 但 是 , 它 也 给 数据 挖掘 工作 带 来 新 的 问题 。 例 如 ,从 不 
同 粒度 挖掘 出 来 的 知识 可 能 存在 元 余 问题 ; 由 于 维 数 不 加 限制 可 能 引起 挖掘 效率 低下 等 问 
题 。 因 此 ,可 以 限制 聚焦 的 维 数 或 粒度 层次 ,也 可 以 针对 不 同 的 维 设置 约束 条 件 。 利 用 约束 
灵活 地 进行 多 维 挖掘 是 目前 比较 集中 讨论 的 问题 。 

4. 知识 内 容 的 约束 

可 以 通过 限定 要 挖掘 的 知识 的 内 容 , 如 指定 单价 大 于 10 的 交易 项 目 , 减 少 探索 的 代价 
和 加 快 知识 的 形成 过 程 。 这 样 的 约束 也 可 以 通过 数据 挖掘 语言 来 指定 。 

5. 针对 具体 知识 类 型 的 约束 

不 同 的 知识 类 型 在 约束 形式 和 使 用 上 会 有 所 差异 ,因此 开展 针对 具体 知识 类 型 的 进行 
约束 挖掘 的 形式 和 实现 机 制 的 研究 是 有 意义 的 。 例 如 ,对 于 关联 规则 挖掘 ,使 用 指定 要 挖掘 
的 规则 形式 (如 规则 模板 ) 等 。 近 年 来 ,在 基于 约束 的 聚 类 、 关 联 规则 等 方面 开展 了 相应 的 
工作 。 


5.6.2 系统 客观 层面 


使 用 “支持 度 - 可 信和 度 ” 的 关联 规则 挖掘 度量 框架 ,在 客观 上 也 可 能 出 现 与 事实 不 相符 的 
结果 。 例 如 ,前 面 提 到 的 “计算 机 游戏 和 录像 产品 是 负 相 关 的 ”问题 。 现 在 已 有 许多 工作 来 
重新 考虑 关联 规则 的 客观 度量 问题 。 例 如 , Brin 等 考虑 的 蕴含 规则 (Implication Rule); 
Chen 等 给 出 的 R- 兴 趣 (R-Interesting) 规 则 度量 方法 等 。 这 些 工作 都 期 望 通过 引入 新 的 度 
量 机 制 和 重新 认识 关联 规则 的 系统 客观 性 来 改善 挖掘 质量 。 


5.7 约束 数据 挖掘 问题 


如 前 所 述 ,在 数据 挖掘 和 知识 发 现 中 使 用 约束 可 以 提高 挖掘 效率 .精度 等 。 事 实 上 ,对 
于 一 个 大 型 数据 库 集 而 言 , 可 能 蕴含 着 巨大 数量 的 关联 知识 。 如 果 盲 目地 进行 挖掘 ,不 仅 效 
率 很 低 ,而 且 可 能 造成 新 的 “信息 坟墓 ”问题 , 即 知识 太 多 以 至 于 我 们 无 法 利用 。 同 时 ,数据 
挖掘 和 知识 发 现 是 一 件 艰苦 而 细致 的 工作 ,只 有 严格 控制 应 用 规模 才 有 可 能 达到 实用 。 

归纳 起 来 ,约束 在 数据 挖掘 中 的 使 用 可 以 在 如 下 方面 起 到 关键 作用 。 

1. 聚焦 挖掘 任务 ,提高 挖掘 效率 

数据 挖掘 和 知识 返 现 的 早期 研究 注重 模型 和 算法 的 研究 ,但 是 随 着 应 用 的 探索 ,人 们 发 
现 孤 立 的 挖掘 工具 是 很 难 取 得 预期 效果 的 。 虽 然 在 一 个 项 目的 启动 阶段 ,反复 进行 调研 和 
分 析 , 甚 至 制订 了 很 详细 的 挖掘 任务 列表 ,但 是 还 是 不 能 得 到 我 们 感 兴趣 的 知识 。 实 际 上 ， 
一 个 好 的 挖掘 目标 需要 依靠 具体 的 实现 机 制 保证 。 利 用 约束 ,我 们 可 以 把 具体 的 挖掘 任务 
转换 成 对 系统 工作 的 控制 ,从 而 使 挖掘 工作 按照 我 们 期 望 的 方向 发 展 。 约 束 的 使 用 可 以 在 
知识 发 现 的 任何 阶段 进行 , 它 是 交互 式 或 探索 式 挖掘 的 基本 方法 。 通 过 人 机 交互 和 探索 实 
验 ,我 们 可 以 快速 聚焦 挖掘 任务 ,进而 提高 挖掘 效率 。 

2. 保证 挖掘 的 精确 性 

数据 挖掘 是 一 个 结果 不 可 预测 的 工作 ,我 们 很 难 预先 把 所 有 的 问题 都 设计 好 。 因 此 , 需 
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要 不 断 地 验证 和 修改 错误 。 即 使 有 些 知 识 是 正确 的 , 它 也 未 必 是 我 们 感 兴 趣 的 。 挖 掘 结 果 
的 精确 性 ,不 仅 体现 在 它 的 可 信 程 度 ,而 且 取决 于 它 是 否 对 我 们 有 有 用。 约束 的 使 用 可 以 帮助 
我 们 发 现 问 题 ,并 及 时 加 以 调整 ,使 知识 发 现 的 各 个 阶段 按照 正确 的 方向 发 展 。 

3. 控制 系统 的 使 用 规模 

数据 挖掘 和 知识 发 现 应 用 最 常 犯 的 错误 就 是 无 限制 地 扩大 规模 。 想 要 把 所 有 的 问题 都 
在 一 个 系统 内 解决 ,结果 是 什么 都 解决 不 了 。 约束 数据 挖掘 的 思想 为 系统 的 增 量 式 扩充 提 
供 条 件 。 当 基本 的 原则 和 目标 确定 后 ,可 以 把 一 些 有 待 验证 和 优化 的 问题 以 约束 参数 的 形 
式 交 互 式 输入 ,通过 实验 找到 最 佳 值 。 由 于 约束 可 以 在 知识 发 现 的 不 同 阶段 实施 ,因此 可 以 
在 每 个 子 阶段 设置 约束 条 件 ,控制 系统 的 不 断 增长 。 在 数据 预 处 理 阶段 ,可 以 通过 设置 与 任 
务 相关 的 数据 选择 约束 、 数 据 过 滤 条 件 等 ,在 保证 数据 质量 的 前 提 下 ,尽量 减少 数据 规模 。 
在 挖掘 阶段 ,可 以 针对 不 同 的 子 目标 进行 约束 ,快速 聚焦 问题 ,加 快 知识 形成 的 进程 。 

不 同类 型 的 约束 条 件 , 可 以 帮助 解决 特定 的 问题 。 弄 清 一 个 约束 的 类 型 ,可 以 帮助 我 们 
更 好 地 使 用 约束 。 对 于 不 同类 型 的 约束 ,可 以 采用 不 同 的 策略 应 用 到 数据 挖掘 的 过 程 中 。 
对 于 多 层次 或 多 维 数据 挖掘 也 可 以 通过 约束 类 型 的 特点 ,实现 约束 的 转移 或 青 生 。 对 于 约 
东 类 型 的 研究 ,也 有 一 些 很 好 的 工作 。 

从 挖掘 所 使 用 约 东 的 类 型 看 ,可 以 把 用 于 关联 规则 挖掘 的 约束 分 为 单调 性 约束 
(Monotone Constraint )、 反 单调 性 约束 (Anti-monotone Constraint)、 可 转变 的 约束 
(Convertible Constraint) 和 简洁 性 约束 (Succinct Constraint) 。 


小 结 


(1) 数据 之 间 的 关联 关系 的 发 现在 选择 购物 .决策 分 析 和 商务 管理 方面 是 有 用 的 。 一 
个 流行 的 应 用 领域 是 购物 篮 分 析 ,通过 搜索 经 常 一 起 (或 依次 ) 购 买 的 商品 的 集合 ,研究 顾客 
的 购买 习惯 。 关 联 规 则 挖掘 首先 找 出 频繁 项 集 ( 项 的 集合 ,如 A 和 避 , 满 足 最 小 支持 度 阔 
值 , 或 任务 相关 元 组 的 百分比 ) ,然后 ,由 它们 产生 形 如 A 王 >B 的 强 关 联 规则 。 这 些 规 则 也 
满足 最 小 置信 度 阔 值 (预定 义 的 在 满足 A 的 条 件 下 满足 B 的 概率 ) 。 

(2) 不 同 的 标准 ,关联 规则 可 以 分 成 若干 类 型 ,如 : 

@ 根据 规则 所 处 理 的 值 的 类 型 ,关联 规则 可 以 分 为 布尔 的 和 量化 的 。 布 尔 关 联 规则 表 
现 离 散 ( 分 类 ) 对 象 之 间 的 联系 。 量 化 关联 规则 是 多 维 关联 规则 ,涉及 动态 离散 化 的 数值 属 
性 。 它 也 可 能 涉及 分 类 属性 。 

@ 根据 规则 中 数据 涉及 的 维 , 关 联 规则 可 以 分 成 单 维 的 和 多 维 的 。 单 维 关联 规则 涉及 
单个 谓词 或 维 ,如 buys; 而 多 维 关联 规则 涉及 多 个 (不 同 的 ) 谓 词 或 维 。 单 维 关联 规则 展示 
的 是 属性 内 联系 ( 即 同一 个 属性 或 维 内 的 关联 ); 多 维 关联 规则 展示 的 是 属性 间 联 系 ( 即 属 
性 / 维 之 间 的 关联 )。 

@ 根据 规则 涉及 的 抽象 层 , 关 联 规则 可 以 分 为 单 层 和 多 层 的 。 在 单 层 关联 规则 中 ,项 
或 谓词 的 挖掘 不 考虑 不 同 的 抽象 层 ; 而 多 层 关联 规则 考虑 多 个 抽象 层 。 

@ 根据 对 关联 规则 的 不 同 扩充 ,关联 规则 可 以 扩充 为 相关 分 析 和 最 大 频繁 模式 (“最 大 
模式 ”) 与 频繁 闭 项 集 挖掘 。 相 关 分 析 指 出 相关 项 的 存在 与 否 。 最 大 模式 是 一 个 频繁 模式 
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,使 得 p 的 任何 真 超 集 都 不 是 频繁 的 。 频 繁 闭 项 集 是 指 : 项 集 c 是 闭 的 ,如 果 不 存 在 c 的 
真 超 集 c ,使 得 包含 c 的 子 模 式 的 每 个 事务 也 包含 c。 

(3) Apriori 算法 是 一 种 有 效 的 关联 规则 挖掘 算法 , 它 探 查 逐 级 挖掘 Apriori 性 质 : 频 
繁 项 集 的 所 有 非 空子 集 都 必须 是 频繁 的 。 在 第 次 迭代 (k 二 1) , 它 根 据 频 繁 k 项 集 , 形 成 频 
繁 (& 十 1) 候 选项 集 ,并 扫描 数据 库 一 次 , 找 出 完整 的 频繁 (& 十 1) 项 集 Lai 。 

涉及 散 列 和 事务 压缩 的 变形 可 以 用 来 使 得 过 程 更 有 效 。 其 他 变形 涉及 划分 数据 (在 每 
一 部 分 上 挖掘 ,然后 合并 结果 ) 和 数据 选 样 ( 在 数据 子 集 上 挖掘 ) 。 这 些 变形 可 以 将 数据 扫描 
次 数 减少 到 两 次 或 一 次 。 

(4) 频繁 模式 增长 (FP- 增 长 ) 是 一 种 不 产生 候选 的 挖掘 频繁 项 集 方 法 。 它 构造 一 个 高 
度 压缩 的 数据 结构 (FP- 树 ) ,压缩 原来 的 事务 数据 库 。 不 使 用 类 Apriori 方法 的 产生 -测试 策 
略 , 它 聚焦 于 频繁 模式 ( 段 ) 增 长 ,避免 了 高 代价 的 候选 产生 ,获得 更 好 的 效率 。 

(5) 多 层 关联 规则 可 以 根据 每 个 抽象 层 上 的 最 小 支持 度 阔 值 如 何 定义 ,使 用 多 种 策略 
挖掘 。 当 在 较 低层 使 用 递减 的 支持 度 时 , 剪 枝 方法 包括 层 交 叉 按 单项 过 滤 , 层 交叉 按 A 项 
集 过 滤 。 宛 余 的 多 层 (后代 ) 关 联 规则 可 以 删除 ,不 向 用 户 提供 ,如 果 根 据 其 提供 的 祖先 规 
则 ,它们 的 支持 度 和 置信 度 接近 于 期 望 值 的话 。 

(6) 挖掘 多 维 关联 规则 可 以 根据 对 量化 属性 处 理 分 为 若干 类 。 第 一 ,量化 属性 可 以 根 
据 预 定义 的 概念 分 层 静 态 离散 化 。 数 据 立 方 体 非 常 适合 这 种 方法 ,因为 数据 立方 体 和 量化 
属性 都 可 以 利用 概念 分 层 。 第 二 ,可 以 挖掘 量化 关联 规则 ,其 量化 属性 根据 分 箱 动态 离散 
化 ,其 中 "临近 的 "关联 规则 可 以 用 聚 类 组 合 。 第 三 ,可 以 挖掘 基于 距离 的 关联 规则 ,其 中 区 
间 根 据 聚 类 定义 。 

(7) 并 非 所 有 的 强 关联 规则 都 是 有 趣 的 。 对 于 统计 相关 的 项 ,可 以 挖掘 相关 规则 。 

(8) 基于 约束 的 挖掘 允 许 用 户 聚 焦 , 按 提供 的 元 规则 ( 即 模式 模板 ) 和 其 他 挖掘 约束 搜 
索 规 则 。 这 种 挖掘 促进 了 说 明 性 数据 挖掘 查询 语言 和 用 户 界 面 的 使 用 ,并 对 挖掘 查询 优化 
提出 了 巨大 挑战 。 规 则 约束 可 以 分 为 5 类 : 反 单调 的 ,单调 的 ,简洁 的 、 可 转变 的 和 不 可 转 
变 的。 前 4 类 约束 可 以 在 关联 挖掘 中 使 用 ,指导 挖掘 过 程 ,导致 更 有 效 的 和 更 有 作用 的 
挖掘。 

(9) 关联 规则 能 够 帮助 用 户 快速 地 找到 解决 问题 的 合适 切入 点 。 


习题 


. 什么 是 关联 分 析 ? 它 的 作用 是 什么 ? 

.举例 说 明 关联 分 析 在 银行 保险、 电信 ,零售 或 政府 管理 中 的 应 用 。 

. 请 用 算法 语言 描述 Apriori 算法 思想 和 FP 增长 算法 思想 。 

思考 Apriori 算法 在 哪些 地 方 有 待 改 进 。 

. 调研 和 思考 目前 关联 分 析 的 最 新 研究 进展 。 

.对 于 如 表 5-4 所 示 的 数据 集 ,假设 最 小 支持 度 计数 和 最 小 置信 和 度 分 别 为 2 和 65%， 


=- 


思考 : 
(1) 画 出 该 数据 集 的 项 集 格 ,判断 每 个 结 点 是 否 为 频繁 项 集 。 
(2) 分 别 用 Apriori 算法 和 FP 增长 算法 挖掘 表 中 数据 集 ,提取 所 有 的 强 关联 规则 。 
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表 5-4 某 日 超市 的 购物 记录 


交易 ID 购买 商品 列表 交易 ID 购买 商品 列表 
To01 {牛奶 ,啤酒 ,尿布 ) To06 {面包 ,黄油 ,牛奶 } 
T002 { 牛 奶 ,尿布 ,饼干 } To007 {牛奶 ,尿布 ,面包 ,黄油 } 
TO03 {啤酒 ,饼干 ,尿布 } To08 {啤酒 ,尿布 } 
T004 { 面 包 , 黄 油 , 尿 布 } To009 {牛奶 ,尿布 ,面包 ,黄油 } 
T005 { 啤 酒 ,饼干 } To10 {面包 ,黄油 ,饼干 ) 

7. 讨论 目前 关联 规则 挖掘 在 大 数据 时 代 的 一 些 挑战 。 


第 O 


地 


聚 类 分 析 


第 4 章 介绍 了 分 类 分 析 的 基本 概念 和 经 典 算法 。 为 对 数据 进行 分 类 ,分 类 技术 需要 输 
入 预先 定义 的 类 别 和 已 知 类 标签 的 训练 集 。 本 章 介绍 在 不 知道 数据 有 哪些 或 多 少 类 别 , 且 
无 包含 类 标签 的 训练 集 的 情况 下 ,通过 观察 数据 对 象 的 特征 ,直接 进行 类 别 划分 的 技术 。 区 
别 于 第 4 章 的 分 类 分 析 技 术 ,本 章 对 数据 进行 类 划分 的 技术 称 为 聚 类 技术 ,划分 到 相同 类 别 
的 数据 称 为 一 个 徐 。 在 本 章 中 ,将 介绍 聚 类 的 概念 ,用 途 ,数据 模型 基本 类 型 .常用 算法 等 ， 
并 比较 分 类 与 聚 类 的 异同 。 


6.1 聚 类 的 概念 


6.1.1 聚 类 概念 及 应 用 


聚 类 是 指 根据 数据 对 象 之 间 的 相似 性 ,把 一 组 数据 对 象 划分 为 多 个 有 意义 组 的 过 程 , 每 
个 组 称 为 类 或 篮 (Cluster) ,同一 个 秒 内 的 数据 对 象 之 间 具 有 较 高 的 相似 性 ,不 同 徐 内 的 数 
据 对 象 之 间 相 差 则 较 大 。 与 分 类 不 同 的 是 , 聚 类 目标 所 要 求 划分 的 类 别 是 未 知 的 , 且 聚 类 数 
据 对 象 中 没有 关于 类 别 特征 的 数据 ,其 划分 簇 的 过 程 不 是 以 包含 类 别 的 数据 对 象 为 指导 ,而 
是 根据 数据 对 象 的 特征 来 进行 的 。 以 此 为 基础 的 聚 类 分 析 对 于 数据 理解 及 数据 处 理 都 有 着 
重要 的 作用 。 数 据 理解 用 来 分 析 和 描述 类 或 概念 上 有 意义 的 .具有 共同 特征 的 对 象 组 ,而 聚 
类 分 析 是 研究 自动 发 现 潜在 的 类 或 复 的 技术 。 在 许多 领域 中 有 着 大 量 基 于 数据 理解 的 聚 类 
分 析 应 用 ,以 下 是 一 些 常见 的 例子 。 

市 场 营销 : 企业 通过 不 同 渠 道 获得 大 量 的 顾客 消费 数据 。 聚 类 分 析 技 术 可 以 把 顾客 消 
费 数 据 划分 成 不 同 分 组 ,帮助 企业 市 场 分 析 人 员 从 顾客 消费 数据 库 中 区 分 出 不 同 的 消费 群 
体 来 ,并 且 概括 出 每 一 类 消费 群体 的 消费 模式 ,从 而 进一步 开展 市 场 营销 活动 。 
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搜索 引擎 : 搜索 引擎 对 万 维 网 上 数 以 亿 万 计 的 Web 页 面 进行 搜索 ,其 结果 往往 返回 成 
千 上 万 的 页 面 , 提 供给 用 户 。 通 过 聚 类 对 搜索 结果 划分 成 若干 不 同 的 复 ,每 个 篮 对 应 具有 某 
些 共同 特征 的 Web 页 面 文档 ,可 实现 对 搜索 结果 分 类 。 例 如 搜索 “汽车 ,返回 结果 页 面 可 
以 聚 类 成 汽车 图 片 .汽车 品牌 汽车 知识 ,汽车 购买 .汽车 论坛 等 类 别 ,方便 用 户 选择 需要 的 
结果 和 进一步 获取 详细 信息 。 

生物 学 : 生物 实验 室 容易 获得 数 以 万 计 的 基因 组 信息 ,通过 使 用 聚 类 分 析 技 术 对 基因 

组 信息 分 组 ,可 对 具有 类 似 功 能 的 基因 进行 分 类 ,帮助 科研 人 员 进 一 步 研究 这 些 基因 组 之 间 
的 关系 ; 同样 地 , 聚 类 可 辅助 研究 动 , 植 物 分 类 ,发现 其 中 一 些 潜在 结构 。 

保险 : 保险 公司 拥有 大 量 客户 理赔 记录 数据 ,通过 对 这 些 数据 进行 聚 类 分 析 , 对 客户 分 
类 ,发 现 不 同 险种 如 车 险 . 人 寿 保险 等 对 应 的 具有 较 高 索赔 概率 的 潜在 群体 ,为 进一步 展 
保险 业务 决策 提供 支持 。 

租房 信息 : 成 千 上 万 的 房 主 在 租房 网 站 上 发 布 数 以 万 计 的 房 源 信息 ,网 站 系统 通过 采 
用 聚 类 分 析 ,自动 将 房 源 信息 根据 区 域 . 房 型 .租金 .出 租 方式 .设施 等 进行 分 类 ,以 便 租 客 选 
择 自 己 所 需 的 房 源 信息 。 

医学 : 一 种 疾病 或 健康 状况 通常 有 多 种 变种 , 聚 类 分 析 可 以 用 来 发 现 这 些 子 类 别 。 

在 数据 处 理 方面 , 聚 类 分 析 一 般 用 于 汇总 ` 压 缩 ` 发 现 最 近邻 等 处 理 。 聚 类 分 析 提 供 由 
个 别 数据 对 象 到 数据 对 象 所 指派 的 簇 的 抽象 。 此 外 ,一 些 聚 类 技术 使 用 簇 原 型 ( 即 代表 簇 中 
其 他 对 象 的 数据 对 象 ) 来 刻画 簇 特征 。 这 些 原型 可 以 用 作 大 量 数据 分 析 和 数据 处 理 技术 的 
基础 。 

(1) 汇总 。 许 多 数据 分 析 技术 ,如 回归 和 PCA ,都 具有 O(n?) 或 更 高 的 时 间或 空间 复杂 
度 (其 中 是 对 象 的 个 数 )。 因 此 ,对 于 大 型 数据 集 , 这 些 技术 不 切实 际 。 然 而 ,可 以 将 算法 
用 于 仅 包含 簇 原型 的 数据 集 ,而 不 是 整个 数据 集 。 依 赖 分 析 类 型 .原型 个 数 和 原型 代表 数据 
的 精度 ,汇总 结果 可 以 与 使 用 所 有 数据 得 到 的 结果 相 媲美 。 

(2) 压缩 。 簇 原型 可 以 用 于 数据 压缩 。 例 如 ,创建 一 个 包含 所 有 簇 原型 的 表 , 即 每 个 原 
型 赋予 一 个 整数 值 ,作为 它 在 表 中 的 位 置 。 每 个 对 象 用 与 它 所 在 的 簇 相关 联 的 原型 的 索引 
表示 。 这 类 压缩 称 作 向 量 量化 ,并 常常 用 于 图 像 、 声 音 和 视频 数据 ,此 类 数据 的 特点 是 : 
加 许多 数据 对 象 之 间 高 度 相 似 ; 回 某 些 信息 丢失 是 可 以 接受 的 ; 加 希望 大 幅度 压缩 数 
据 量 。 

(3) 有 效 地 发 现 最 近邻 。 找 出 最 近邻 可 能 需要 计算 所 有 点 对 点 之 间 的 距离 。 通 常 ,可 
以 更 有 效 地 发 现 位 和 复原 型 。 如 果 对 象 相 对 地 靠近 簇 的 原型 , 则 可 以 使 用 复原 型 减少 发 现 
对 象 最 近邻 所 需要 计算 的 距离 的 数目 。 直 观 地 说 ,如 果 两 个 复原 型 相距 很 远 , 则 对 应 徐 中 的 
对 象 不 可 能 互 为 近邻 。 这 样 ,为 了 找 出 一 个 对 象 的 最 近邻 ,只 需要 计算 到 邻近 簇 中 对 象 的 距 
离 , 其 中 两 个 簇 的 邻近 性 用 其 原型 之 间 的 距离 度量 。 


6.1.2 聚 类 算法 要 求 


具有 高 度 可 伸缩 性 : 要 求 聚 类 算法 不 仅 在 不 超过 几 百 个 数据 对 象 的 小 数据 集 上 有 较 好 
的 聚 类 效果 ,同时 在 包含 上 百 万 个 或 更 多 数据 对 象 的 大 规模 数据 集 上 , 聚 类 结果 也 不 会 有 很 
大 偏差 。 

能 够 处 理 不 同类 型 数据 : 要 求 算法 能 够 处 理 间隔 尺度 .名 义 尺度 .序数 尺度 、 二 元 参数 


章 聚 类 Ti 
第 6 章 聚 类 分 析 111 
数据 ,或 者 这 些 类 型 混合 的 数据 。 


可 发 现任 意 形 状 的 簇 : 一 般 聚 类 算法 基于 绝对 值 距离 或 欧 氏 距离 度量 划分 徐 。 基 于 这 
种 距离 度量 的 算法 偏向 于 发 现 具有 相近 尺度 和 密度 的 球状 徐 。 实 际 应 用 中 ,一 个 簇 的 形状 
可 能 是 任意 的 ,要 求 提出 能 够 发 现任 意 形状 簇 的 算法 。 

最 小 化 输入 参数 : 大 量 紧 类 算法 在 聚 类 分 析 中 要 求 用 户 输入 参数 ,例如 希望 产生 的 簇 的 
数目 ,计算 密度 的 半径 及 相关 阔 值 等 。 聚 类 结果 对 输入 参数 敏感 ,一 般 情 况 下 参数 难以 确定 ， 
特别 是 对 包含 高 维 数据 对 象 的 数据 集 。 参 数 输 入 会 增加 用 户 的 负担 ,同时 聚 类 质量 难以 控制 。 

能 够 处 理 噪 声 数据 : 实际 应 用 中 的 数据 集 往往 包含 着 孤立 点 、 值 缺失 或 错误 的 数据 对 
象 。 要 求 聚 类 算法 对 这 样 的 数据 具有 健壮 性 ,避免 对 这 样 的 数据 过 于 敏感 而 导致 低 质量 的 
聚 类 结果 。 

对 数据 输入 顺序 不 敏感 : 部 分 聚 类 算法 对 数据 输入 顺序 较为 敏感 ,对 同样 的 数据 集 但 
不 同 顺序 的 输入 ,所 得 到 的 聚 类 结果 相差 较 大 。 提 出 对 数据 输入 顺序 不 敏感 的 算法 有 着 重 

处 理 高 维度 数据 的 能 力 : 大 多 数 算法 擅长 处 理 低 维 数据 。 实 际 应 用 中 数据 可 能 是 高 维 
的 ,对 高 维 空间 中 数据 对 象 聚 类 具有 挑战 性 ,特别 是 当 这 样 的 数据 分 布 稀 朴 ,高 度 倾斜 时 。 
提出 能 够 处 理 高 维 数据 的 聚 类 算法 同样 具有 重要 意义 。 

条 件 约束 下 的 聚 类 : 现实 应 用 可 能 需要 在 各 种 约束 条 件 下 进行 聚 类 。 要 找到 既 满 足 特 
定 的 约束 ,又 具有 良好 聚 类 特性 的 簇 是 一 项 具有 挑战 性 的 任务 。 

聚 类 结果 可 解释 性 和 可 用 性 : 与 特定 语义 解释 和 应 用 相 联 系 , 聚 类 结果 是 可 解释 .可 理 
解 和 可 用 的 ,这 样 用 户 才 可 将 聚 类 算法 有 效应 用 于 具体 问题 。 如 何 根据 应 用 要 求 选择 聚 类 
方法 是 一 个 重要 的 研究 课题 。 


6.1.3 聚 类 技术 类 型 划分 


聚 类 技术 的 基本 类 型 一 般 包 括 划分 法 、 密 度 法 .层次 法 、 网 格 法 和 模型 法 。 同 样 的 数据 
集 采 用 不 同 聚 类 方法 ,其 聚 类 结果 也 往往 不 相同 。 甚 至 采用 相同 类 型 的 聚 类 算法 ,选用 不 同 
参数 ,结果 也 很 不 一 样 。 实 际 应 用 中 , 聚 类 结果 好 坏 不 仅 取决 于 算法 的 选择 ,同时 取决 于 业 
务 领域 的 认识 程度 。 聚 类 用 户 需要 深刻 了 解 所 选用 的 聚 类 技术 ,而 且 要 知道 数据 收集 的 细 
节 和 业务 领域 知识 。 对 聚 类 数据 了 解 越 多 ,用 户 越 能 成 功 地 评估 数据 集 的 真实 结构 。 

1. 划分 法 

划分 法 聚 类 把 一 个 包含 个 数据 对 象 的 数据 集 分 组 成 & 个 簇 (kn)。 每 一 个 簇 至 少 包 
含 一 个 数据 对 象 , 且 每 一 个 数据 对 象 属于 且 仅 属于 一 个 徐 。 对 给 定 , 基 于 划分 法 的 聚 类 算 
法 首先 给 出 一 个 初始 的 分 组 方法 ,随后 通过 反复 迭代 重新 分 组 ,使 得 每 一 次 重新 分 组 好 于 前 
一 次 分 组 。 评 判 分 组 好 与 差 的 标准 是 : 同一 簇 中 的 数据 对 象 相似 度 越 高 越 好 ,不 同 徐 中 的 
数据 对 象 相 异 度 越 大 越 好 。 为 计算 一 个 簇 内 所 有 数据 对 象 的 相似 度 ,需要 为 得 指定 一 个 原 
型 ( 簇 中心 .代表 对 象 ) , 簇 内 所 有 对 象 的 相似 度 为 簇 内 其 他 对 象 与 原型 之 间 相 似 度 之 和 。 因 
此 ,又 称 划 分 法 为 基于 原型 的 聚 类 算法 。 划 分 法 的 代表 算法 有 k-means、k-medoids、k- 
modes、PAM (Partition Around Medoid) 等 。 由 于 划分 法 基于 与 原型 的 距离 进行 分 组 ,因此 
一 般 只 能 发 现 圆 形 或 球形 的 和 能。 图 6-1(a) 给 出 了 划分 法 聚 类 结果 示意 图 。 图 中 ,划分 法 把 
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数据 集 划 分 为 三 个 簇 ,虚线 包围 的 所 有 对 象 构成 一 个 徐 。 符 号 “ 倪 " 表 示 簇 原型 或 簇 中 心 。 

2. 密度 法 

与 基于 簇 原 型 和 相似 度 的 划分 法 不 同 ,密度 法 聚 类 基于 密度 定义 分 组 数据 对 象 。 密 度 
法 中 ,首先 根据 用 户 给 定 参 数 , 计 算 每 个 数据 对 象 的 密度 大 小 ,并 以 此 区 分 低 密度 区 域 和 高 
密度 区 域 ,前 者 将 后 者 分 隔 , 每 个 高 密度 区 域 中 的 数据 对 象 则 可 构成 一 个 聚 类 或 徐 。 密 度 法 
的 代表 算法 有 DBSCAN (Density-Based Spatial Clustering of Application with Noise)、 
OPTICS( Ordering Points to Identify the Clustering Structure) 和 DENCLUE (Density 
Based Clustering) 。 密 度 聚 类 法 可 以 克服 基于 距离 的 聚 类 只 能 发 现 圆 形 或 球形 的 簇 的 缺 
点 , 聚 类 结果 也 不 要 求 每 个 数据 对 象 都 划分 到 某 个 簇 中 。 图 6-1(b) 给 出 了 密度 法 聚 类 的 结 
果 示 意图 。 图 中 ,虚线 包围 的 区 域 为 高 密度 区 域 . 共 有 4 个 , 即 密度 法 聚 类 识别 该 数据 集 有 
4 个 徐 。 没 有 被 虚线 包围 的 其 他 区 域 为 低 密度 区 域 。 


划分 法 ，13 (b) 密度 法 


图 6-1 同样 的 数据 集 采 用 划分 法 和 密度 法 聚 类 结果 


3. 层次 法 

层次 法 聚 类 将 数据 集 划 分 为 不 同 级 别 的 分 组 或 徐 。 所 谓 不 同 级 别 指 的 是 大 的 分 组 可 能 
包含 着 小 分 组 ,大 小 分 组 之 间 构 成 上 下 级 别 或 嵌 套 关系 ,所 有 级 别 分 组 可 构成 一 个 树 状 结 
构 。 层 次 法 可 以 分 为 凝聚 式 和 分 裂 式 两 种 基本 形式 。 凝 聚 式 采用 自 底 向 上 的 方式 , 先 将 所 
有 数据 对 象 都 各 自 划 分 为 一 类 ,将 最 相似 的 类 首先 合并 ,再 将 得 到 的 类 与 其 他 最 相似 的 类 聚 
类 ,合并 操作 反复 进行 ,得 到 不 同 级 别 的 聚 类 划分 ,直到 所 有 对 象 都 合并 成 一 类 或 满足 某 个 
终结 条 件 为 止 。 分 裂 式 与 之 相反 ,采用 自 顶 向 下 方式 ,首先 把 所 有 数据 对 象 划分 为 一 个 大 
类 ,然后 分 裂 成 两 类 ,使 一 类 中 的 对 象 尽 可 能 地 与 另 一 类 对 象 相 异 , 然 后 再 将 每 一 类 继续 分 
裂 ,反复 进行 产生 不 同 级 别 的 聚 类 ,直至 每 个 对 象 都 自 成 一 类 或 满足 某 个 终结 条 件 为 止 。 层 
次 聚 类 算法 大 多 数 采用 凝聚 式 , 代 表 算 法 有 BRICH。 图 6-2 给 出 了 层次 法 聚 类 的 结果 示意 
图 。 其 结果 可 表示 为 嵌 套 的 簇 ( 见 图 6-2(a) ) ,也 可 以 表示 为 树 状 图 ( 见 图 6-2(b) ) 。 

在 层次 法 聚 类 中 ,不 管 是 凝聚 式 还 是 分 裂 式 ,都 依赖 于 簇 之 间 的 相 异 性 ,而 相 异 性 一 般 
使 用 距离 来 度量 。 度 量 簇 之 间 的 距离 函数 一 般 有 以 下 几 种 定义 。 

(1) 最 短 距离 : 两 个 艇 之 间 的 距离 定义 为 两 个 簇 内 的 元 素 之 间距 离 最 小 者 。 

(2) 最 长 距离 : 与 最 短 距离 相反 ,两 个 簇 之 间 的 距离 定义 为 两 个 簇 内 的 元 素 之 间距 离 
最 大 者 。 

(3) 中 间距 离 : 两 个 簇 之 间 的 距离 定义 不 取 两 类 间 最 短 或 最 长 距离 ,而 是 取 某 个 中 间 
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的 距离 。 


(4) 重心 距离 : 两 个 簇 之 间 的 距离 定义 为 这 两 个 簇 的 重心 间 的 距离 。 
(5) 平均 距离 : 两 个 簇 之 间 的 距离 定义 为 这 两 个 簇 内 的 元 素 两 两 之 间 的 平均 距离 。 


| 


abrcde 
(a) 说 套 访 图 (b) 树 状 图 


图 6-2 层次 法 聚 类 结果 


4. 网 格 法 

网 格 法 聚 类 把 空间 划分 为 有 限 个 单元 ,然后 对 划分 后 的 空间 进行 聚 类 。 基 于 网 格 的 聚 
类 算法 复杂 度 取决 于 网 格 单元 的 数目 ,与 数据 集 大 小 无 关 。 代 表 算 法 有 STING(STatistical 
INformation Grid) \CLIQUE(CLustering In QUEst) 和 WAVE-CLUSITER 算法 。 

5. 模型 法 

模型 法 假定 数据 对 象 是 按 潜在 的 概率 分 布 模型 生成 的 ,每 个 聚 类 满足 一 种 模型 ,而 整个 
数据 集 是 由 一 系列 的 概率 分 布 模型 所 决定 的 。 聚 类 时 从 数据 集中 查找 满足 各 分 布 模型 的 数 
据 对 象 , 尽 可 能 优化 聚 类 对 象 与 对 应 模型 之 间 的 适应 性 。 模 型 法 聚 类 主要 有 两 种 方案 : 统 
计 方 案 和 神经 网 络 方案 。 


6.2 聚 类 分 析 的 统计 量 


6.2.1 模型 定义 


假设 聚 类 问题 中 的 数据 集 包 含 n 个 数据 对 象 : x;(i 二 1,2,…,n) ,每 个 数据 对 象 由 户 个 
变量 (属性 ) 构 成 , 即 xz; 二 (za ,zz，… zp)。n 个 数据 对 象 可 表示 为 如 图 6-3 所 示 的 数据 矩 
阵 。 这 些 数据 对 象 可 能 表示 人 ,文档 基因组 、 超 市 交易 记录 ,移动 通话 记录 等 。 此 外 ,还 可 
以 使 用 如 图 6-4 所 示 的 相 异 度 矩 阵 存 储 n 个 数据 对 象 两 两 之 间 的 近似 性 。 其 中 ,qd(i,j) 表 
示 第 i 个 对 象 与 第 j 个 对 象 的 相 异 度 , 有 d(i,j)= 二 4d(j,i) 和 d(i,i) 二 0。6. 2.2 节 将 详细 介 
绍 对 象 间 相 异 度 的 计算 方法 。 


Tu Tr Tip 0 
d(2,1) 0 
d(3,1) d(3,2) 0 
Th I Tw dnsl) dns2) oo 0 


图 6-3 数据 矩阵 图 6-4 相 异 度 矩 阵 
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属性 用 来 描述 对 象 的 特征 ,属性 值 可 以 是 定性 的 或 者 定量 的 。 若 采用 连续 型 或 数值 型 
度量 , 称 为 间隔 尺度 ,例如 和 的 年 龄 .收入 等 ; 若 采 用 有 序 等 级 的 符号 描述 , 称 为 有 序 尺度 ， 
例如 产品 等 级 A、B、C 等 ; 若 只 是 采用 一 些 名 字 , 而 无 等 级 和 数量 关系 的 , 取 值 数 目 有 限 的 
离散 型 或 类 属 型 来 描述 , 称 为 名 义 尺度 , 例 如 颜色 红 、 绿 、 蓝 等 ,其 取 值 范围 为 若干 个 可 选择 
值 。 某 些 情况 下 ,名 义 尺 度 仅 有 两 种 取 值 ,例如 病人 的 某 项 指标 呈 阴 性 或 阳性 , 称 这 样 的 名 
义 尺 度 为 二 元 参数 。 从 模式 识别 或 空间 的 角度 来 看 ,一 个 对 象 是 空间 中 的 一 个 点 。 


6.2.2 ”相似 性 度量 


相似 性 用 来 描述 分 类 对 象 之 间接 近 和 相似 的 程度 ,是 划分 法 聚 类 技术 的 聚 类 依据 。 为 
度量 相似 性 ,需要 定义 一 些 统计 量 作为 聚 类 的 数量 指标 ,从 而 可 以 定量 地 进行 聚 类 。 常 用 来 
度量 数据 对 象 间 相 似 性 的 统计 量 有 距离 函数 和 相似 系数 ,它们 的 定义 与 数据 对 象 属性 的 类 
型 有 关 , 不 同属 性 类 型 有 不 同 的 定义 方式 。 在 本 章 中 ,不管 距离 函数 .相似 系数 ,还 是 别 的 统 
计量 , 均 用 符号 必 表 示 ,都 表示 数据 对 象 x; 和 zi 之 间 的 接近 或 相似 (远离 或 相 异 ) 程 度 。 

1. 对 象 属性 为 间隔 尺度 


属性 用 来 描述 对 象 的 各 种 特征 ,在 采用 间隔 尺度 的 情况 下 ,属性 值 可 采用 不 同 的 度量 单 
位 ,其 度量 结果 的 数量 级 可 能 相差 悬殊 。 一 般 来 说 ,一 个 属性 使 用 较 小 的 度量 单位 会 使 得 该 
属性 有 较 大 的 取 值 区 间 , 属 性 绝对 值 的 数量 级 也 相对 较 大 ,例如 ,属性 距离 的 度量 单位 从 干 
米 改 为 米 , 或 属性 重量 的 单位 从 千克 改 为 克 , 度 量 结果 会 造成 若干 数量 级 的 差别 。 绝 对 值 数 
量 级 大 的 属性 对 聚 类 的 影响 可 能 会 覆盖 其 他 绝对 值 小 的 属性 ,使 得 后 者 应 有 的 作用 得 不 到 
反映 。 这 意味 着 属性 度量 单位 的 选择 会 对 聚 类 结果 造成 很 大 的 影响 。 为 了 避免 聚 类 结果 依 
赖 于 属性 值 度量 单位 ,在 进行 聚 类 分 析 之 前 , 聚 类 数据 对 象 的 属性 值 一 般 需 要 采取 标准 化 处 
理 , 目 的 是 使 得 所 有 属性 具有 相同 的 权 值 ,确保 各 属性 在 聚 类 中 的 作用 相同 。 这 对 没有 获得 
数据 对 象 的 先 验 知识 时 尤其 有 用 。 需 注意 的 是 ,在 具体 应 用 中 ,用 户 可 能 会 根据 对 具体 业务 
领域 知识 的 理解 ,赋予 聚 类 对 象 中 一 部 分 属性 更 大 的 权 值 。 例 如 对 足球 运动 员 聚 类 ,可 能 给 
予 速 度 属性 更 大 的 权 值 。 

标准 化 的 一 种 办 法 是 把 原 值 转换 成 无 单位 的 参数 值 。 给 定 包含 n 个 数据 对 象 的 数据 
集 , 对 每 个 数据 的 第 j 个 属性 进行 标准 化 的 一 般 方法 如 下 。 

(1) 计算 所 有 数据 对 象 在 第 j 个 属性 上 的 平均 值 ,如 式 (6-1) 所 示 。 


mj; 一 Ly (6-1) 
Wm 
(2) 对 每 个 数据 对 象 x; 的 第 j 个 属性 , 即 zx ,进行 中 心 化 变换 zx; ,如 式 (6-2) 所 示 。 
一 Xi OO— My (6-2) 


了 


(3) 标准 化 是 在 中 心 化 的 基础 上 再 做 变化 ,使 得 各 种 变量 的 变化 范围 相等 。 采 用 不 同 
的 方法 衡量 变化 范围 时 ,有 不 同 的 标准 化 变换 方法 。 常 用 的 有 绝对 差 标准 化 、 标 准 差 标准 化 
和 极 差 标准 化 。 

人 绝对 差 标 准 化 。 计 算 第 j 个 属性 的 绝对 差 : 


一方 > 


XT— I (6-3) 


2 标准 化 变换 为 : 
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Pd a (6-4) 


aj 


@ 标准 差 标 准 化 。 计 算 第 j 个 属性 的 标准 差 : 


= 一 i 二 (6-5) 
zy 标准 化 变换 为 : 
址 三 一 I (6-6) 
G) 极 差 标准 化 。 计 算 第 j 个 属性 的 极 差 : 
R; = maxigien (X74) 一 min<i<n(zh) (6-7) 
已 标准 化 变换 为 : 
敬一 5 (6-8) 
也 可 进行 极 差 正规 化 : 


= 4 一 mini<i<s(z 和 ) 
4 

数据 对 象 标准 化 后 ,或 没有 被 标准 化 ,可 基于 距离 和 相似 系数 统计 量 计算 两 个 数据 对 象 
Zi 和 2 之 间 的 相 异 度 dd; 。 

1) 基于 距离 函数 的 相 异 度 计算 

使 用 距离 统计 量 描述 两 个 对 象 的 相 异 度 , 源 于 对 包含 p 个 间隔 尺度 属性 的 数据 对 象 ,n 
个 对 象 可 视 作 上 p 维 空间 的 个 点 ,使 用 空间 中 点 与 点 的 距离 度量 数据 对 象 间 的 相 异 (远离 ) 
程度 。 作 为 两 个 对 象 x; 和 xz 之 间 的 距离 函数 ,dr 应 该 满足 下 列 条 件 。 

(1) 非 负 性 。 对 所 有 x; 和 x;, 有 di; 宇 0, 当 且 仅 当 两 个 数据 对 象 的 p 属性 对 应 相等 时 ， 
等 式 成 立 。 

(2) 对 称 性 。 对 所 有 zx; 和 x), 有 ds 二 dj;。 

(3) 三 角 不 等 式 。 对 所 有 xi,x; 和 zz, 有 ds 二 dx 十 dys 。 

从 上 述 看 出 ,两 个 数据 对 象 之 间 的 距离 在 0-~cc 之 间 ,距离 越 大 ,两 个 数据 对 象 相 异 度 
越 大 ; 反之 ,距离 越 小 ,两 个 数据 对 象 的 相似 度 越 高 。 在 聚 类 分 析 中 .常用 的 距离 函数 如 下 。 

(1) 明 氏 (Minkowski) 距 离 


户 lg 
(0 = (Dl |] (6-10) 
当 g 分 别 为 1,2 和 oo 时 , 明 氏 距离 分 别 为 绝对 值 距离 (又 称 曼 哈 顿 距离 或 城市 街区 距 
离 )、 欧 氏 距离 和 切 比 雪夫 距离 。 


此 外 ,如 果 聚 类 用 户 需要 根据 属性 重要 程度 赋予 每 个 属性 & 权 值 wi, 明 氏 距 离 函 数 定 
义 为 : 


《6= 9 


p 1/9 
ds (gq) = (Be | za 一 xz |] (6-11) 
k=1 


(2) 马 氏 距离 
明 氏 距离 一 般 适用 于 欧式 空间 。 考 虑 到 数据 对 象 中 各 属性 值 往往 为 随机 变量 ,因此 第 
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i 个 样本 的 p 个 变量 的 观察 值 x; 二 (xa ,zs，… ,zs)" 是 p 维 随机 向 量 。 由 于 随机 向 量 有 一 
定 的 分 布 规律 ,各 个 分 量 之 间 有 可 能 相关 ,因此 两 个 样品 作为 随机 向 量 的 个 体 ,其 马 氏 距离 
的 定义 为 : 


dy (M = Vz — zx) (ri—z) (6-12) 

其 中 ，》) 是 随机 变量 的 协 方差 矩阵 ,车 未 知 ,可 用 其 估计 值 。 

2) 基于 相似 系数 的 相 异 度 计 算 

对 于 p 维 空间 中 的 两 个 向 量 ,可 以 用 相似 系数 度量 它们 之 间 的 相似 度 。 同 样 地 ,这 里 
采用 di 表示 第 i 个 和 第 j 个 向 量 间 的 相似 系数 。di; 需 要 满足 以 下 条 件 。 

(1) 对 所 有 zi、z;,， 有 1ds | 二 1, 当 且 仅 当 两 个 向 量 存 在 线性 关系 , 即 xz; 二 czj,c 为 非 0 党 
量 时 等 式 成 立 ; 

(2) 对 所 有 wixszis 有 5 Sie 

在 聚 类 分 析 中 ,数据 对 象 作为 p 维 空间 中 的 向 量 , 它 们 的 相似 系数 可 以 用 两 个 向 量 间 
的 夹 角 余弦 表示 。 设 0; 表 示 两 个 数据 对 象 x; 和 zi 对 应 向 量 之 间 的 夹 角 , 那 么 这 两 个 对 象 
的 相似 系数 定义 为 : 


di; = cos(0;) (6-13) 


2. 对 象 属性 为 名 义 尺度 

与 间隔 尺度 不 一 样 , 名 义 尺度 属性 的 取 值 范围 为 有 限 个 可 选取 值 。 这 些 取 值 可 以 用 字 
母 , 符 号 或 一 系列 整数 表示 ,但 这 些 整 数 只 是 为 了 用 来 处 理 数据 ,而 不 代表 任何 排序 信息 。 
例如 ,人 的 职业 有 律师 、 工 程 师 、 医 生 、 商 人 、 教 师 等 。 因此 ,对 于 名 义 尺度 属性 ,采取 与 间隔 
尺度 相同 的 办 法 计算 数据 对 象 之 间 相似 度 , 可 能 会 造成 不 合理 的 聚 类 结果 。 

对 包含 间隔 尺度 属性 值 的 数据 对 象 x; 和 zz; ,它们 之 间 的 相似 度 计算 是 根据 属性 值 匹配 
数 进行 的 , 相 异 度 dj; 计算 为 : 


dsy = 2—* (6-14) 
p 


式 中 ,m 为 对 象 和 xz 在 对 应 的 属性 上 取 值 相同 的 数目 , 是 属性 总 数目 。 实 际 应 用 中 ， 
可 以 根据 属性 的 重要 程度 ,对 某 些 属性 或 者 属性 的 特定 取 值 赋予 更 大 的 权 值 ,增加 对 m 值 
的 影响 。 

3. 对 象 属性 为 二 元 参数 

二 元 参数 属性 是 名 义 尺度 属性 仅 有 两 个 可 选取 值 ( 例 如 0 或 1) 的 特例 ,可 直接 采用 与 
名 义 尺度 属性 相同 的 方式 计算 包含 二 元 参数 的 两 个 对 象 的 相似 度 。 令 g 为 对 象 x; 和 zz 在 
相同 属性 上 取 值 均 为 1 的 属性 数目 ,t 为 取 值 均 为 0 的 属性 数目 ,~ 为 zx; 取 值 为 1 而 zx; 取 值 
为 0 的 属性 数目 ,* 为 x; 取 值 为 0 而 xz; 取 值 为 1 的 属性 数目 。 那 么 有 p 二 gq 十 7 十 s 十 :。 则 
对 象 r 和 x 的 相 异 度 计 算 为 : 

人 Me 
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有 些 情 况 下 ,二 元 参数 属性 的 两 个 可 选取 值 并 不 是 同样 重要 ,例如 ,对 某 种 疾病 的 测试 
结果 ,阳性 比 阴性 更 重要 ,这 种 二 元 参数 属性 称 为 非 对称 的 。 一 般 情况 下 ,对 更 重要 的 属性 
取 值 (通常 是 较 少 出 现 的 那个 值 ) 编 码 为 1, 另 一 个 取 值 编码 为 0。 进 而 取 值 为 1 的 匹配 通常 
认为 比 取 值 为 0 的 匹配 更 重要 。 包 含 这 样 二 元 参数 属性 的 两 个 对 象 间 的 相似 度 称 为 非 对 称 
二 元 相似 度 。 其 中 ,( 在 相同 属性 上 )0 值 匹 配 数目 上 被 认为 是 不 重要 的 ,在 计算 中 应 被 忽 
略 , 从 而 两 个 对 象 w 和 xi 之 间 的 相 异 度 计 算 为 : 


一 _r 十 5 
ds g++ri+is 


(6-16) 


或 等 价 的 相似 度 计 算 为 ; 


simy 二 (6-17) 


相似 系数 sims 也 称 为 Jaccard 系数 ,在 研究 界 中 有 着 广泛 应 用 。 当 同一 个 数据 集 同时 
出 现 对 称 和 非 对 称 二 元 参数 属性 时 ,可 采用 下 面 即 将 介绍 的 混合 属性 的 方法 处 理 。 

4. 对 象 属性 为 序数 尺度 

序数 尺度 分 为 离散 型 和 连续 型 。 离 散 序 数 尺度 属性 可 看 作 名 义 尺度 属性 ,但 可 选取 值 
是 有 意义 的 排序 序列 。 这 种 尺度 的 属性 在 实际 应 用 中 也 十 分 常见 ,例如 ,教授 职位 高 低 以 有 
序 序列 表示 : 助理 教授 \ 副 教授、 教授 。 连 续 序数 尺度 属性 可 看 作 不 知道 标量 大 小 的 间隔 尺 
度 属性 ; 也 就 是 说 属性 值 的 相对 顺序 是 重要 的 ,但 实际 大 小 并 不 是 那么 重要 ,例如 比赛 中 的 
相对 排名 (金牌 .银牌 和 铜牌 ) 经 常 比 实际 的 度量 值 更 必需 。 通 过 将 间隔 尺度 属性 值 域 划分 
为 有 限 个 区 间 ,对 属性 值 离散 化 也 可 以 得 到 序列 尺度 。 序 列 值 可 以 映射 为 排序 值 。 例 如 , 假 
设 一 个 序列 尺度 属性 & 有 mi 个 取 值 ,这 些 有 序 的 取 值 可 以 映射 为 排序 值 1,2，… ,m4。 

对 包含 序数 尺度 属性 的 两 个 数据 对 象 r 和 xz 之 间 的 相 异 度 计算 如 下 。 

(1) 第 i 个 数据 对 象 的 第 k 个 属性 值 为 xa ,属性 & 共 有 wm 个 有 序 状 态 , 对 应 着 1， 
2,… ,nu4。 把 数据 集 里 所 有 的 zx 替换 为 相对 应 的 排序 值 a € {1,… ,mi)。 

(2) 由 于 每 个 序数 尺度 属性 可 能 拥有 不 同 个 数 的 可 选取 值 状态 ,所 以 需要 把 每 个 属性 
的 取 值 范围 映射 到 [0. 0.1. 0], 使 得 每 个 属性 具有 相同 的 权 值 。 可 以 通过 将 第 i 个 数据 对 象 
上 第 & 个 属性 值 的 排序 值 蔡 换 为 式 (6-18) 实 现 : 


| 


(6-18) 


之 天 


me—1 

(3) 采用 与 间隔 尺度 属性 相同 的 计算 方式 ,对 上 述 转换 后 的 数据 xx 进行 计算 ,获得 两 
个 对 象 间 相 异 度 的 值 。 

5. 对 象 属性 为 比例 尺度 

比例 尺度 用 来 以 正 数 表示 非 线 性 度量 值 .例如 指数 ,一 般 采 用 Ae* 或 Ae “的 形式 ,这 
里 A 和 B 为 正常 数 ,t 一 般 表示 时 间 。 常 见 的 例子 有 细菌 的 生长 数目 或 放射 性 元 素 的 衰变 。 
对 包含 比例 尺度 属性 的 数据 对 象 计算 相 异 度 ,一 般 有 以 下 三 种 方式 。 

(1) 直接 采用 与 间隔 尺度 属性 相同 的 计算 方式 。 这 种 方式 可 能 会 使 标量 扭曲 ,并 非 一 
个 好 选择 。 

(2) 对 数据 对 象 中 采用 比例 尺度 的 属性 值 进行 对 数 转 换 , 例 如 第 i 个 对 象 中 比例 尺度 
属性 7 的 值 x; 转 换 为 yj 二 log(xs)。 转 换 后 的 yi 可 视 作 普通 间隔 尺度 ,可 采用 与 间隔 尺度 
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属性 相同 的 计算 方式 ,计算 对 象 间 的 相 异 度 。 需 注意 的 是 比例 尺度 数据 可 采取 对 数 转换 或 
别 的 类 型 转换 ,取决 于 比例 尺度 值 的 定义 和 具体 应 用 。 

(3) 把 看 作 连 续 型 序数 尺度 数据 ,并 把 它们 的 排序 看 作 间 隔 尺度 值 来 处 理 。 

选择 哪 种 计算 方式 取决 于 具体 应 用 ,一 般 情 况 下 后 两 种 更 为 有 效 。 

6. 对 象 属性 为 混合 尺度 

在 实际 应 用 中 ,数据 对 象 包含 的 属性 不 只 采用 一 种 类 型 ,而 是 混合 采用 多 种 类 型 。 在 这 
种 情况 下 ,一 般 做 法 是 对 同类 型 属性 归 为 一 组 ,然后 对 不 同 组 的 属性 值 分 别 进行 聚 类 分 析 。 
如 果 采 用 不 同 组 属性 得 到 的 聚 类 结果 是 兼容 的 ,那么 这 种 方法 可 行 。 但 在 实际 应 用 中 ,分 别 
对 每 组 属性 进行 聚 类 ,很 少 可 能 产生 兼容 的 结果 。 一 种 更 可 行 的 办 法 是 同时 考虑 所 有 类 型 
属性 值 进行 聚 类 , 即 把 数据 对 象 所 有 类 型 的 属性 值 同时 放 到 一 次 聚 类 分 析 中 ,而 不 是 分 组 分 
别 聚 类 。 这 其 中 一 个 重要 的 技术 是 把 所 有 不 同类 型 的 属性 值 合 并 到 一 个 相 异 性 矩阵 中 ,把 
所 有 有 意义 的 属性 值 映射 到 共同 的 取 值 区 间 [0. 0,1.0]。 

假设 数据 集 包 含 p 个 混合 类 型 属性 。 两 个 数据 对 象 x; 和 zi 之 间 的 相 异 度 dy 计算 
如 下 ， 

yawaw 


ds = (6-19) 


p 


Dep 


其 中 ,指示 函数 69 二 0, 如 果 满足 : Dz 或 x 的 值 缺 失 ; @zs 二 zx 一 0 且 属 性 k 是 非 对 称 
二 元 尺度 类 型 ; 否则 6 二 1。 属 性 为 对 象 x; 和 zi 之 间 的 相 异 度 所 做 贡献 为 & 多 ,根据 其 
类 型 计算 如 下 。 


如 果 A 是 区 间 标 量 类 型 : dj 二 一 一 一 上 一 一 ,其 中 ,hh 是 所 有 在 & 上 有 值 的 对 象 。 


maxisTim — minazim 
如 果 A 是 二 元 参数 或 者 名 义 尺 度 : dP = 二 0, 如 果 x 二 xn; 否则 d 多 一 1。 
如 果 4 是 序数 尺度 类 型 , 计算 排 位 六 及 ss 一 从 二 ] ,并 把 =s 当 成 区 间 标 量 处 理 。 


如 果 & 是 比例 尺度 : 或 者 进行 对 数 变化 ,把 变化 结果 当成 区 间 标量 ,或 者 把 k 当成 连续 
序数 ,计算 排 位 7a 及 za 二 全 二 ,并 把 za 当成 间隔 尺度 处 理 。 


me—l1 


6.3 常用 聚 类 算法 


针对 不 同方 法 的 聚 类 技术 ,研究 界 已 经 提出 了 大 量 聚 类 算法 ,即使 是 相同 类 型 的 聚 类 方 
法 ,也 存在 着 很 多 不 一 样 的 算法 。 本 节 通 过 介绍 几 个 常用 的 聚 类 算法 ,帮助 读者 进一步 了 解 
聚 类 技术 。 


6.3.1 k 均值 算法 


k 均值 (Ck-means) 算 法 采用 划分 法 聚 类 技术 ,是 一 种 出 现 较 早 .应 用 广泛 的 聚 类 算法 ,一 
般 用 于 维度 连续 空间 中 的 对 象 聚 类 。 给 定 参数 & 和 包含 n 个 数据 对 象 的 数据 集 ,kk 均值 
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算法 把 个 对 象 划分 为 个 簇 。 簇 内 的 数据 对 象 具 有 较 高 相似 度 , 篮 间 的 数据 对 象 相似 度 
则 较 低 。 为 计算 一 个 篮 的 相 异 度 ,需要 计算 该 篮 内 所 有 对 象 的 平均 值 , 即 篮 的 质心 ,指定 为 
簇 中 心 ( 原 型 代表 对 象 ) 。 复 的 相 异 度 为 篮 内 所 有 对 象 与 复 质 心 相 异 度 之 和 。 因 此 均值 
算法 又 称 为 基于 质心 的 聚 类 技术 。 

k 均值 聚 类 算法 的 基本 流程 为 : 算法 首先 随机 地 选择 & 个 对 象 ,每 个 对 象 初始 地 代表 
了 一 个 篮 的 中 心 。 剩 下 的 其 他 对 象 根 据 与 各 个 簇 中 心 的 距离 ,指派 到 最 近 的 篮 中 心 。 被 指 
派 到 同一 个 簇 中 心 的 所 有 对 象 则 构成 一 个 簇 。 然 后 通过 计算 整个 簇 的 平均 值 即 质 心 ,重新 
指定 簇 中 心 。 重 复 指 派 剩余 对 象 和 更 新 篮 中 心 ,直到 得 不 发 生变 化 , 即 簇 中 心 不 发 生变 化 ， 
或 变化 小 于 指定 阔 值 。 

k 均值 聚 类 过 程 如 算法 6-1 所 示 。 其 执行 过 程 参 见 图 6-5。 图 6-5 给 出 k 均值 聚 类 算 
法 如 何 从 簇 中心 出 发 ,通过 4 次 指派 和 更 新 操作 ,将 数据 集 划分 为 三 个 徐 。 图 中 灰色 背景 的 
圆 表 示 数 据 对 象 , 圆 内 的 符号 ”* ”十 ”“# ”分 别 表示 所 属 的 类 ,属于 同一 个 类 的 所 有 对 象 对 
应 的 圆 内 使 用 同样 的 符号 。 符 号 “ 倪 " 表 示 簇 中 心 。 每 个 子 图 显示 了 各 次 迭代 开始 时 的 簇 中 
心 , 以 及 各 数据 对 象 围绕 得 中 心 的 指派 ( 即 各 次 执行 完 语句 3 之 后 的 结果 ) 。 


© © ® @ 
8% SW dB% 4 中 
人 @® 3。 @ Soo So 


0 3 , 

@ @@ 
Sp dg Weg Wg 
(a) 第 1 次 迭代 (b) 第 2 次 迭代 (©) 第 3 次 迭代 (d) 第 4 次 迭代 


图 6-5 上 均值 聚 类 迭代 过 程 示 例 


图 6-5(a) 给 出 了 第 一 次 开始 时 ,随机 选择 的 三 个 簇 中心 , 以 及 数据 对 象 指派 到 离 其 最 
近 的 簇 中 心 (根据 6. 2. 2 节 计 算 距 离 ) ,被 指派 到 同一 个 簇 中 心 的 对 象 使 用 同一 个 符号 ,表示 
属于 同一 个 秘 。 图 6-5(b) 显 示 了 第 一 次 迭代 后 更 新 的 簇 中 心 。 这 些 中 心 是 在 第 一 次 指派 
对 象 后 形成 三 个 徐 的 基础 上 ,计算 每 个 簇 的 平均 值得 到 的 。 其 他 对 象 被 重新 指派 到 最 新 的 
离 其 最 近 的 簇 中 心 。 同 样 的 方式 ,图 6-5(c) 和 图 6-5(d) 分 别 给 出 在 第 2 次、 第 3 次 迭代 结 
果 基 础 上 ,重新 选 出 的 簇 中 心 ,以 及 依据 更 新 的 篮 中 心 ,重新 指派 对 象 。 执 行 第 4 次 迭代 后 ， 
簇 中 心 不 再 发 生变 化 ,算法 终止 。 识 别 的 三 个 入 的 划分 情况 最 终 如 图 6-5(d) 所 示 。 


算法 6-1 k 均值 聚 类 算法 
输入 : 结果 簇 的 数目 ,包含 个 对 象 的 数据 集 
输出 : 输出 上 个 复 , 使 得 篮 内 所 有 对 象 与 从 的 平均 值 的 相 异 度 总 和 最 小 


随机 选择 个 对 象 作 为 初始 簇 中 心 


Ms 
2: repeat 

3: 将 每 个 对 象 指派 到 最 近 的 簇 中 心 ,构成 个 簇 
Es 计算 簇 的 质心 ,指定 为 新 的 簇 中 心 
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5: “until 簇 中心 不 发 生变 化 


一 般 情况 下 ,k 均值 算法 总 是 收敛 于 一 个 解 , 即 k 均值 会 到 达 一 种 状态 ,其 中 所 有 的 数 
据 对 象 都 不 会 从 一 个 篮 转移 到 另 一 个 簇 ,因此 簇 中 心 不 再 改变 。 实 际 上 由 于 大 多 数 收敛 都 
发 生 在 早期 迭代 ,例如 从 图 6-5 中 可 看 到 靠 前 子 图 中 , 簇 之 间 移 动 对 象 的 数量 较 大 。 因 此 通 
常用 弱 条 件 替 换算 法 6-1 的 第 5 行 ,例如 ,用 “直到 仅 有 0.1% 的 点 改变 簇 " 结 束 迭 代 , 一 定 
程度 上 减少 了 运算 时 间 。 
把 个 数据 对 象 划分 为 个 簇 ,实质 是 把 个 模式 划分 到 k 个 原型 模式 ,最 小 化 所 有 对 
象 (模式 ) 与 其 参照 中 心 点 (原型 模式 ) 之 间 的 相 异 度 总 和 。 设 把 个 对 象 划 分 为 个 簇 Ci， 
Cz，… ,Ci ,相对 应 簇 中 心 为 01 ,0 ，,… ,04，, 那 么 相 异 度 总 和 为 : 
E= DDa, (6-20) 


j=1i€C 
其 中 ,qd 为 第 i 个 对 象 与 徐 中 心 0; 之 间 的 相 异 度 , 可 基于 6. 2. 2 节 的 定义 进行 计算 。 在 k 
均值 算法 中 , 簇 中 心 是 徐 的 均值 ,通过 算法 迭代 ,反复 计算 簇 均值 并 指定 新 的 簇 中 心 , 可 令 E 
值 越 来 越 小 。 因 此 ,k 均值 聚 类 问题 可 看 作 一 个 EE 值 优 化 问题 。 

k 均值 算法 复杂 度 : 由 于 k 均值 算法 内 存 消 耗 主 要 用 来 存放 数据 点 和 簇 中 心 , 因 此 空 
间 复 杂 度 为 OC((n 十 kp) ,其 中 ,n 是 数据 集 大 小 ,k 是 划分 的 簇 数 日 ,p 为 属性 数 。k 均值 算 
法 的 时 间 复 杂 度 基本 上 与 数据 集 大 小 线性 相关 ,所 需要 的 时 间 复 杂 度 为 O(IXkXnXp), 其 
中 ,I 是 收敛 所 需要 的 迭代 次 数 。 由 于 簇 中 心 的 大 部 分 变化 通常 出 现在 前 几 次 ,因此 了 通常 
很 小 ,可 以 是 有 界 的 。 因 此 ,只 要 簇 数 目 & 显著 小 于 数据 对 象 数目 , 则 下 均值 的 计算 时 间 
与 n 线性 相关 。 


6.3.2 ” k-medoids 算法 


6. 3.1 节 介 绍 的 基于 质心 的 k-means 算法 至 少 存在 两 方面 不 足 。 其 一 ,k-means 算法 
仅 适 用 于 数据 对 象 平均 值 有 意义 的 数据 集 ,例如 p 维 连 续 空 间 中 的 对 象 集 。 对 于 包含 名 义 
尺度 或 序数 尺度 等 属性 的 数据 对 象 ,平均 值 无 法 定义 ,无 法 计算 簇 质心 ,因此 k-means 无 法 
适用 于 这 样 的 数据 。 其 二 ,在 每 次 迭代 中 ,k 均值 算法 通过 计算 簇 平均 值 重 新 指定 簇 中 心 。 
在 这 种 情况 下 , 若 数据 集中 存在 着 极 大 值 或 孤立 点 数据 ,由 于 这 些 数据 对 平均 值 的 计算 影响 
很 大 ,最 终 必然 影响 簇 中心 的 指定 。 因 此 k-means 算法 对 孤立 点 比较 敏感 。 造 成 这 两 个 问 
题 的 根本 原因 都 是 因为 算法 计算 簇 平均 值 作为 徐 中 心 , 因 此 改进 的 一 个 办 法 是 不 采用 簇 对 
象 的 平均 值 ,取而代之 ,用 每 个 簇 中 最 靠近 中 心 的 对 象 , 即 medoid, 作 为 篮 中 心 (原型 ,代表 
对 象 )。 称 这 种 基于 medoid 的 聚 类 算法 为 k-medoids。 这 里 上 是 指 聚 类 过 程 中 始终 维护 
个 medoid, 对 应 着 上 个 簇 。 

k-medoids 算法 与 k-means 算法 划分 聚 类 的 原则 相同 .都 是 基于 最 小 化 所 有 对 象 与 其 
所 指派 得 中 心 之 间 的 相 异 度 之 和 , 即 最 小 化 式 (6-20)。 不 同 之 处 在 于 在 k-means 算法 里 ， 
式 (6-20) 中 的 o 为 簇 Ci 的 质心 ,而 在 k-medoids 算法 里 , 式 (6-20) 中 的 为 Ci 的 medoid。 
k-medoids 聚 类 算法 的 基本 思路 为 : 算法 首先 随机 地 选择 个 对 象 ,每 个 对 象 初始 地 代表 了 
一 个 簇 的 中 心 。 剩 下 的 对 象 根 据 与 各 簇 中 心 的 距离 ,分配 到 最 近 的 簇 中 心 。 被 分 配 到 同一 
个 中 心 的 所 有 数据 对 象 构成 一 个 簇 。 然 后 反复 地 用 非 中 心 对 象 替 换 中 心 对 象 ,重新 指派 非 
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中 心 对 象 ,改进 聚 类 质量 , 即 降低 式 (6-20) 的 相 异 度 值 ,直到 簇 中心 不 发 生变 化 。 

为 判断 一 个 非 中 心 数据 对 象 o, 能 否 蔡 换 簇 中 心 对 象 o;, 需 要 判断 E? 和 E" 的 大 小 关 
系 。 这 里 EF? 是 替换 之 前 个 簇 的 相 异 度 ,E" 是 o; 换 为 0, 之 后 重新 划分 得 到 k 个 簇 的 相 异 
度 ,E? 和 Eo% 都 依据 式 (6-20) 进 行 计 算 。 若 (已 一 E)<0, 则 将 o; 替换 为 ov ,否则 保持 不 变 。 
在 o; 换 为 o* 后 ,其 他 非 中 心 对 象 o, 则 根据 以 下 4 种 情况 指派 到 簇 中 心 。 

第 一 种 情况 : o, 当前 指派 到 0o;。 如 果 o; 蔡 换 为 0,, 但 o 这 时 距离 其 他 某 个 簇 中 心 
oi(i 隆 让 最 近 , 则 o, 重新 指派 到 oi 。 

第 二 种 情况 : o, 当前 指派 到 o;。 如 果 0; 替换 为 0,, 且 o, 这 时 距离 o, 最 近 , 则 o, 重新 指 
派 给 o,。 

第 三 种 情况 : o, 当前 指派 到 o。 如 果 0; 蔡 换 为 0,, 但 o, 这 时 距离 其 他 某 个 簇 中 心 
oi(i 关 站 最 近 , 则 o, 的 指派 无 须 改变 。 

第 四 种 情况 : o， 当前 指派 到 其 他 某 个 复 中 心 o0;(i 关 让。 如 果 o; 替换 为 o, ,但 o, 这 时 距 
离 o0, 最 近 , 则 o, 重新 指派 到 0o,。 

图 6-6 描述 了 上 述 的 4 种 情况 。 图 中 实 线 表示 替换 前 o 的 指派 关系 ,虚线 表示 替换 后 
o 的 指派 关系 。 

典型 的 k-medoids 算法 如 算法 6-2 所 示 。 

当 存 在 噪声 数据 和 孤立 点 数据 时 ,k-medoids 方法 比 k-means 方法 更 具有 和 鲁 棒 性 ,这 是 
由 于 聚 类 中 心 medoid 不 像 平均 值 那样 容易 受到 孤立 点 数据 的 影响 。 然 而 ,k-medoids 方法 
的 时 间 代 价 比 k-means 方法 高 ,比较 适用 于 小 数据 集 ,对 于 中 、 大 型 数据 集 效率 较 低 。 这 是 
由 k-medoids 算法 的 复杂 度 决 定 的 。 在 步骤 5 中 ,每 对 o 和 o; 需要 检查 (一) 个 非 中 心 对 
象 来 计算 Eo ,步骤 4 可 看 出 共有 k(n 一 &) 对 o, 和 oj 因此 进行 一 次 迭代 的 复杂 度 为 
OC(k (2 一 A)2)。 一 般 情 况 下 有 可 能 需要 迭代 多 次 算法 才能 收敛 ,因此 时 间 开 销 非 常 大 。k- 


medoids 的 空间 开销 主要 保存 个 数据 对 象 和 k 个 中 心 点 ,空间 复杂 度 为 O((n 十 k)p), 其 
中 为 属性 数 。 
Or Or Or Or 
@) 。 .人 @ ®@ ®@ 
oO， oo 
0, 
se 由 oi 0 “© do 
(a) 指派 给 w， (b) 指派 给 or (c) 不 变 (d) 指派 给 or 


图 6-6 非 中 心 对 象 重新 指派 方法 


算法 6-2 k-medoids 算法 
输入 : 结果 簇 的 数目 ,包含 个 对 象 的 数据 集 
输出 : 输出 4 个 得 , 使 得 簇 内 所 有 对 象 与 簇 中 心 对 象 的 相 异 度 总 和 最 小 


1: 随机 选择 & 个 对 象 作为 初始 簇 中 心 
2: repeat 


3: 将 其 他 每 个 非 中 心 对 象 指派 到 最 近 的 簇 中 心 w ,构成 个 艇 
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4: for each (0, ,0;) 
5: 计算 用 o, 替换 。 后 的 cr 一 已 一 已 

如 果 min<<，aasi<tAs<0, 则 用 o, 替换 o ,生成 新 的 人 个 复 
6: “until 簇 中 心 不 发 生变 化 


6.3.3 凝聚 层次 聚 类 算法 


层次 聚 类 技术 是 一 类 重要 的 聚 类 方法 。 与 k 均值 算法 一 样 ,与 许多 聚 类 方法 相 比 ,层次 
聚 类 方法 相对 较 老 ,但 是 仍然 有 着 广泛 的 应 用 。6. 1. 3 节 简 单 介绍 了 两 种 产生 层次 聚 类 的 
基本 方法 : 中 凝聚 式 ,从 点 作为 个 体 复 开 始 , 每 一 步 合并 两 个 最 接近 的 得 ; 思 分 列 式 , 从 包 
含 所 有 点 的 某 个 复 开 始 ,每 一 步 分 裂 一 个 复 ,直到 仅 剩 下 单 点 复 。 其 中 ,凝聚 式 层次 聚 类 技 
术 最 常见 ,本 章 仅 关 注 该 类 算法 。 

凝聚 层次 聚 类 算法 的 基本 思路 为 : 从 个 体 点 作为 得 开始 ,相继 合并 两 个 最 接近 的 复 , 直 
到 只 剩 下 一 个 徐 。 算 法 6-3 形式 化 地 描述 了 基本 过 程 。 


算法 6-3 ”基本 层次 聚 类 算法 
输入 : 包含 个 对 象 的 数据 集 
输出 : 形成 层次 结构 的 簇 


如 果 需 要 ,计算 邻近 度 矩 阵 


1 
2 repeat 

3: 合并 最 接近 的 两 个 簇 

4 更 新 邻近 矩阵 ,以 反映 新 的 簇 与 原来 簇 之 间 的 邻近 性 
5 until 仅 剩 下 一 个 簇 


定义 簇 之 间 的 邻近 性 : 算法 6-3 的 关键 操作 是 计算 两 个 簇 之 间 的 邻近 度 , 并 且 正 是 簇 
的 邻近 性 定义 区 分 了 各 种 凝聚 层次 技术 。 簇 的 邻近 性 通常 用 特定 的 簇 类 型 定义 。 例 如 , 许 
多 凝聚 层次 技术 ,如 MIN、MAX 和 组 平均 ,都 源 于 簇 的 基于 图 的 观点 。MIN 定义 簇 的 邻近 
度 为 不 同 簇 的 两 个 最 近 的 点 之 间 的 邻近 度 ,或 者 使 用 图 的 术语 ,不 同 的 结 点 子 集中 两 个 结 点 
之 间 的 最 短 边 。MAX 取 不 同 簇 中 两 个 最 远 的 点 之 间 的 邻近 度 作为 簇 的 邻近 度 , 或 者 使 用 
图 的 术语 ,不 同 的 结 点 子 集中 两 个 结 点 之 间 的 最 长 边 。 另 一 种 基于 图 的 方法 是 组 平均 技术 ， 
它 定义 簇 邻近 度 为 取 自 不 同 簇 的 所 有 点 对 邻近 度 的 平均 值 (平均 边 长 )。 图 6-7 展示 了 这 三 
种 方法 。 

如 果 取 基于 原型 的 观点 , 簇 用 质心 代表 , 则 不 同 的 簇 邻近 度 定义 就 更 加 自然 。 使 用 质心 
时 ,入 的 邻近 度 一 般 定义 为 簇 质心 之 间 的 邻近 度 。 另 一 种 技术 是 Ward 方法 ,也 假定 用 其 质 
心 代表 ,但 它 使 用 合并 两 个 簇 导致 的 SSE 增加 来 度量 两 个 复 之 间 的 邻近 性 。 像 上 均值 法 一 
样 , Ward 方法 也 试图 最 小 化 点 到 其 篮 质心 的 相 异 度 之 和 。 

时 间 和 空间 复杂 度 : 基本 凝聚 层次 聚 类 算法 使 用 邻近 度 和 矩阵 ,需要 存储 妈 /2 个 邻近 度 
(假定 邻近 度 矩 阵 是 对 称 的 ) ,其 中 ,n 是 数据 点 的 个 数 。 记 录 簇 所 需 的 空间 正比 于 簇 的 个 数 
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1 
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图 6-7 簇 邻 近 度 的 基于 图 的 定义 


为 n 一 1, 不 包含 单 点 徐 。 因 此 总 的 空间 复杂 度 为 O(n?)。 
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基本 凝聚 层次 聚 类 算法 的 计算 复杂 度 分 析 也 是 很 明确 的 ,需要 O(n ) 时 间 计 算 邻 近 度 
矩阵 ,之 后 ,步骤 3 和 4 设计 一 1 次 迭代 ,因为 开始 及 n 个 簇 ,而 每 次 迭代 合并 两 个 艇 。 如 
果 邻 近 度 矩阵 采用 线性 搜索 , 则 对 第 i 次 迭代 ,步骤 3 需要 OC(n 一 i 十 1)?) 时 间 , 这 正比 当前 
簇 个 数 的 平方 。 步 又 4 只 需要 O(n 一 i 十 1) 时 间 , 在 合并 两 个 徐 后 更 新 邻近 度 矩 阵 ( 对 于 我 
们 考虑 的 技术 , 簇 合并 只 影响 O(n 一 i 十 了) 个 邻近 度 )。 不 做 修改 ,时 间 复 杂 度 为 O(n )。 如 
果 某 个 簇 到 其 他 所 有 簇 的 距离 存放 在 一 个 有 序 表 或 堆 中 , 则 查找 两 个 最 近 徐 的 开销 可 能 降 


低 到 O(n 一 i 十 1)。 然 而 ,由 于 维护 有 序 表 或 堆 的 附加 开销 ， 
基于 算法 6-3 的 层次 聚 类 所 需 的 总 时 间 为 O(n*logn)。 层 
次 聚 类 的 空间 和 时 间 复 杂 度 都 严重 限制 了 它 所 能 够 处 理 的 
数据 集 的 大 小 。 

具体 凝聚 层次 聚 类 算法 如 下 。 

1. 数据 集 

为 了 解释 各 种 层次 聚 类 算法 ,本 节 使 用 包含 6 个 二 维 
点 的 数据 对 象 , 如 图 6-8 所 示 。 对 象 工 和 >y 坐标 ,以 及 点 之 
间 的 欧 氏 距离 分 别 列 在 表 6-1 和 表 6-2 中 。 


表 6-1 6 个 二 维 点 的 坐标 
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图 6-8 6 个 二 维 点 的 集合 


点 x 坐标 ?坐标 

办 0. 4005 0. 5306 

Pp: 0.2148 0. 3854 

ps 0.3457 0. 3156 

ps 0.2652 0. 1875 

ps 0.0789 0. 4139 

ps 0. 4548 0. 3022 

表 6-2 6 个 点 的 欧 氏 距 离 矩 阵 

点 pi Pp Ps ps bs bs 
pi 0. 0000 0. 2357 0.2218 0. 3688 0. 3421 0.2347 
p: 0.2357 0. 0000 0. 1483 0. 2042 0. 1388 0. 2540 
ps 0.2218 0.1483 0.0000 0.1513 0.2843 0.1100 
ps 0.3688 0. 2042 0.1513 0.0000 0.2932 0.2216 
ps 0.3421 0. 1388 0. 2843 0. 2932 0. 0000 0. 3921 
ps 0.2347 0.2540 0.1100 0.2216 0.3921 0.0000 
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2. 基于 MIN 的 凝聚 层次 聚 类 

对 于 层次 聚 类 的 单 链 或 MIN 版 本 ,两 个 簇 的 邻近 度 定义 为 两 个 不 同 簇 中 任意 两 点 之 间 
的 最 短 距离 (最 大 相似 度 )。 使 用 图 的 术语 ,如 果 我 们 从 所 有 点 作为 单 点 簇 开始 ,每 次 在 点 之 
间 加 上 一 条 链 ,最 短 的 链 先 加 , 则 这 些 链 将 点 合并 成 得。 单 链 技术 擅长 处 理 非 椭圆 形状 的 
簇 ,但 对 噪声 和 离 群 点 很 敏感 。 

图 6-9 显示 了 将 单 链 技术 用 于 6 个 点 数据 集 例子 的 聚 类 结果 。 图 6-9(a) 用 嵌 套 的 椭圆 
序列 显示 藤 套 的 复 ,其 中 与 椭圆 相关 联 的 数字 表示 聚 类 顺序 。 图 6-9(b) 使 用 了 树 状 图 表示 
相同 聚 类 结果 。 树 状 图 中 两 个 复合 并 处 的 高 度 反 映 两 个 簇 的 距离 。 例 如 ,由 表 6-2 可 看 到 
ps 和 ps 的 距离 是 0.11, 这 正 是 它们 在 树 状 图 里 合并 处 的 高 度 。 另 一 个 例子 , 簇 {3,6) 和 入 
{2,5} 之 间 的 距离 是 : 

dist({3,6}),{2,5}) 一 min(dist(3,2) ,dist(6,2),dist(3,5) ,dist(6,5)) 
一 min(0.15,0.25,0.28,0.39) 


一 0. 15 
0.2 
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(a) 单 链 聚 类 (b) 单 链 树 状 图 


图 6-9 6 个 数据 对 象 的 单 链 聚 类 


3. 基于 MAX 的 凝聚 层次 聚 类 
对 于 层次 聚 类 的 全 链 或 MAX 版 本 ,两 个 簇 的 邻近 度 定义 为 两 个 不 同 簇 中 任意 点 之 间 
的 最 长 距离 (最 小 相似 度 )。 使 用 图 的 术语 ,如 果 我 们 从 所 有 点 作为 单 点 簇 开始 ,每 次 在 对 象 
之 间 加 上 一 条 链 , 最 短 的 链 先 加 , 则 一 组 点 到 其 中 所 有 的 点 都 完全 被 连接 ,形成 一 个 徐 。 完 
全 连接 对 噪声 和 离 群 点 不 太 敏 感 ,但 是 它 可 能 使 大 的 簇 破裂 ,并 且 偏 好 球形 。 
图 6-10 显示 了 将 MAX 用 于 6 个 样本 数据 集 的 结果 。 与 单 链 一 样 ,ps 和 ps 首先 合并 。 
然后 ,{3,6) 与 {4} 合 并 ,而 不 是 与 {2,5}) 或 {1} 合 并 ,因为 : 
dist({3,6)},{4)) =max(dist(3,4),dist(6,4)) 
一 max(0. 15 .0. 22) 
一 0. 22 
dist({3.6},{(2.5})) 一 max(Cdist(3.2) ,dist(6,2),dist(3,5) ,dist(6.5)) 
一 max(0. 15.0.25,0.28,0. 39) 
一 0. 39 
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dist({3,6),{1)) =max(dist(3,1),dist(6,1)) 
一 max(0. 22,0. 23) 


二 0. 23 
0.4 
0.3 
0.2 
01 | 
NE a 
(a) 全 链 聚 类 (b) 全 链 树 状 图 


图 6-10 6 个 数据 对 象 的 全 链 聚 类 


4. 基于 组 平均 的 凝聚 层次 聚 类 

对 于 层次 聚 类 的 组 平均 版 本 ,两 个 簇 的 邻近 度 定 义 为 不 同 簇 的 所 有 点 对 邻近 度 的 平均 
值 。 这 是 一 种 介 于 单 链 和 全 链 之 间 的 方法 。 对 于 组 平均 , 簇 C; 和 C 的 邻近 度 proximity 
(Ci,G;) 由 下 式 定义 ， 


> proximity (xz,y) 
ECi'yECi 


proximity(C Ci ) 


其 中 ,m; 和 7 分 别 是 簇 C; 和 C 的 大 小 。 
图 6-11 显示 了 将 组 平均 用 于 6 个 对 象 样本 数据 集 的 结果 。 为 了 解释 组 平均 如 何 工作 ， 
可 计算 某 些 簇 之 间 的 距离 : 
dist({3,6,4},{1}) 一 (0.22 十 0.37 十 0.23)/(3X1) 
一 0. 28 
dist({2,5},{1}) 一 (0.2357 十 0.3421)/(2X1) 
一 0. 2889 
dist({3,4,6)},{2,5}) 一 (0.15 十 0.28 十 0.25 十 0.39 十 0.20 十 0.29)/(3 X2) 
一 0. 26 
因为 dist({3,4,6},{2,5}) 比 dist({3,6,4},{(1}) 和 dist({2,5},{(1)) 小 , 簇 143,4,6} 和 {(2,5)} 
在 第 4 阶段 合并 。 
5. Ward 方法 和 质心 方法 
对 于 Ward 方法 ,两 个 簇 的 邻近 度 定义 为 两 个 徐 合 并 时 导致 的 平方 误差 的 增 量 。 这 样 
一 来 ,该 方法 使 用 的 目标 函数 与 k 均值 相同 。 尽 管 看 上 去 这 一 特点 使 得 Ward 方法 不 同 于 
其 他 层次 聚 类 技术 ,但 是 可 从 数学 上 证 明 : 当 两 个 点 之 间 的 邻近 度 取 它 们 之 间距 离 的 平方 
时 , Ward 方法 与 组 平均 非常 相似 。 
图 6-12 显示 了 将 Ward 方法 用 于 6 个 数据 对 象 数据 集 的 聚 类 结果 。 
质心 方法 通过 计算 得 质心 之 间 的 距离 来 计算 两 个 簇 之 间 的 邻近 度 。 这 种 技术 看 上 去 与 


mi X mj 


商务 智能 与 数据 挖掘 ( 第 2 版 ) 


126 
0.25 
02 
0.15 
0.1 
0.05 
0 4 
(a) 组 平均 聚 类 (b) 组 平均 树 状 图 


图 6-11 6 个 数据 对 象 的 组 平均 聚 类 


k 均 值 类 似 ,但 是 ,正如 我 们 论述 的 那样 , Ward 方法 与 它 类 似 。 

质心 方法 还 具有 一 种 我 们 讨论 过 的 其 他 层次 聚 类 技术 不 具备 的 特性 ( 常 被 认为 是 坏 
的 ): 倒置 的 可 能 性 。 具 体 地 说 ,合并 的 两 个 复 可 能 比 前 一 步 合 并 的 得 对 更 相似 。 对 于 其 
他 方法 ,被 合并 的 簇 之 间 的 距离 随 层次 聚 类 进展 单调 地 增加 (或 者 ,在 最 坏 情况 下 不 


增加 )。 
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(a) Ward 聚 类 (b) Ward 树 状 图 


图 6-12 6 个 数据 对 象 的 Ward 聚 类 


6.3.4 DBSCAN 算法 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是 一 个 基于 密 
度 的 聚 类 算法 。 算 法 把 簇 看 作 数 据 空间 中 由 低 密度 区 域 分 割 开 的 高 密度 对 象 区 域 ; 将 足够 
高 密度 的 区 域 划 为 得 ,可 以 在 有 噪声 的 数据 集中 发 现任 意 形状 的 聚 类 。 

为 进行 密度 聚 类 ,首先 需要 定义 密度 。DBSCAN 使 用 的 基于 中 心 的 方法 定义 密度 ,把 
簇 定义 为 密度 相连 的 点 的 最 大 集合 。 在 这 种 方法 中 ,数据 集中 指定 数据 对 象 的 密度 定义 为 
以 该 对 象 为 中 心 ,在 Eps 半径 内 数据 对 象 的 数目 (包括 中 心 对 象 ) ,如 图 6-13 所 示 。 对 象 A 
的 Eps 半径 内 数据 对 象 的 数目 为 8, 包括 A 本 身 。 

基于 中 心 定义 密度 的 方法 可 将 点 分 类 为 : 稠密 区 域内 部 的 点 (核心 点 ); 四 稠密 区 域 
边缘 上 的 点 (边界 点 ); @ 稀 蚊 区 域 中 的 点 (噪声 或 背景 点 )。 图 6-14 使 用 二 维 点 集 展示 了 
核心 点 .边界 点 和 噪声 点 的 概念 。 
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图 6-13 基于 中 心 的 密度 


| 


co 


图 6-14 核心 点 ,边界 点 和 噪声 点 


1. 核心 对 象 

核心 对 象 位 于 基于 密度 的 簇 内 部 。 对 象 邻 域 由 距离 函数 和 用 户 指 定 的 距离 参数 Eps 
决定 ,以 一 个 给 定 对 象 为 中 心 ,把 半径 Eps 范围 内 的 区 域 称 为 该 对 象 的 Eps 邻 域 。 在 此 基 
础 上 ,核心 对 象 的 定义 是 ,给 定 用 户 指 定 闽 值 MinPts, 如 果 一 个 对 象 的 给 定 邻 域内 的 对 象 的 
数目 超过 给 定 阔 值 MinPts ,那么 该 对 象 称 为 核心 对 象 。 图 6-14 中 ,如果 MinPts 二 8, 则 对 于 
给 定 的 半径 (Eps) ,对 象 A 为 核心 对 象 。 

2. 边界 对 象 

边界 对 象 不 是 核心 对 象 ,但 它 落 在 某 个 核心 对 象 的 Eps 邻 域 内 。 在 图 6-14 中 ,对 象 B 
是 边界 对 象 。 边 界 对 象 可 能 落 入 多 个 核心 对 象 的 Eps 邻 域内 。 

3. 噪声 对 象 

噪声 对 象 既 不 是 核心 对 象 ,也 不 是 边界 对 象 。 在 图 6-14 中 ,对 象 C 是 噪声 对 象 。 

在 此 基础 上 ,基于 密度 的 簇 定义 如 下 。 

(1) 给 定 一 个 对 象 集合 D, 如 果 p 是 在 g 的 邻 域内 . 且 g 是 一 个 核心 对 象 , 则 称 p 从 对 
象 g 出 发 是 直接 密度 可 达 的 。 

(2) 如 果 存 在 一 个 对 象 链 ,pi ,ps，… ,pnpi 王 q;pr 王 Pp, 对 于 p;€ED,1 二 i<n,pit1 是 从 
pi; 关于 Eps 和 MinPts 直接 密度 可 达 的 , 则 对 象 p 是 从 对 象 g 关于 Eps 和 MinPts 密度 可 
达 的 。 

(3) 如 果 对 象 集 D 中 存在 一 个 对 象 o ,使 得 对 象 和 g 是 从 o 关于 Eps 和 MinPts 密度 
可 达 的 ,那么 对 象 p 和 g 是 关于 Eps 和 MinPts 密度 可 达 的 。 

(4) 密度 可 达 性 是 直接 密度 可 达 的 传递 闭 包 ,这 种 关系 是 非 对 称 的 ,只 有 核心 对 象 之 间 
是 相互 密度 可 达 的 。 一 个 基于 密度 的 簇 是 基于 密度 可 达 性 的 最 大 密度 相连 对 象 的 集合 。 

基于 中 心 定 义 密度 和 簇 的 方法 实现 聚 类 简单 ,但 是 数据 对 象 的 密度 取决 于 指定 的 半径 ， 
如 果 半 径 足 够 大 , 则 所 有 的 点 密度 都 等 于 数据 集 的 对 象 数 n, 反 之 ,如 果 半 径 过 小 , 则 所 有 对 
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象 的 密度 都 是 1。 对 用 户 来 说 ,选择 合适 的 半径 以 保证 聚 类 质量 有 一 定 的 难度 。 

4. DBSCAN 算法 

给 定 核心 点 .边界 点 和 噪声 点 的 定义 .DBSCAN 算法 可 以 非 正 式 地 描述 如 下 。 任 意 两 
个 足够 靠近 (相互 之 间 的 距离 在 Eps 之 内 ) 的 核心 对 象 将 放 在 同一 个 簇 中 。 同 样 ,任何 与 核 
心 对 象 足 够 靠近 的 边界 点 也 放 到 与 核心 点 相同 的 簇 中 。 品 声 对 象 将 会 被 丢弃 。 细 节 如 算 
法 6-4 所 示 。 

DBSCAN 的 基本 时 间 复 杂 度 是 O(nX7) ,其 中 ,t 是 找 出 Eps 邻 域 中 的 点 所 需要 的 时 
间 ,n 是 数据 对 象 的 个 数 。 最 坏 情 况 下 ,时 间 复 杂 度 是 O(n:)。 然 而 在 低 维 空间 ,如 果 使 用 
树 索 引 结 构 , 时 间 复 杂 度 可 以 降低 到 O(nlogn)。 即 便 对 于 高 维 数据 ,DBSCAN 的 空间 复杂 
度 也 是 O(n) ,因为 对 每 个 数据 对 象 , 它 只 需要 维持 少量 数据 , 即 簇 标号 和 每 个 对 象 是 核心 对 
象 . 密 度 可 达 对 象 还 是 噪声 对 象 的 标识 。 

DBSCAN 算法 涉及 如 何 确定 参数 Eps 和 MinPts 的 问题 。 基 本 方法 是 观察 对 象 到 它 的 
& 个 最 近邻 的 距离 ( 称 为 人 姑 距 离 ) 的 特性 。 对 于 属于 某 个 簇 的 点 ,如 果 & 不 大 于 得 的 大 小 的 
话 , 则 和 距离 将 很 小 。 注 意 ,尽管 因 簇 的 密度 和 对 象 的 随机 分 布 不 同 而 有 一 些 变化 ,但 是 如 
果 簇 密度 的 差异 不 是 很 极端 ,在 平均 情况 下 变化 不 会 太 大 。 然 而 ,对 于 不 同 簇 中 的 对 象 (如 
噪声 对 象 ) ,上 距离 将 相对 较 大 。 因 此 ,如 果 对 于 某 个 &, 计 算 所 有 点 的 大 距离 ,以 递增 次 序 
将 它们 排序 ,然后 绘制 排序 后 的 值 , 则 将 会 看 到 人 距离 的 急剧 变化 。 对 于 合适 的 Eps 值 ,如 
果 选 取 该 距离 为 Eps 参数 ,而 取 &A 的 值 为 MinPts 参数 , 则 距离 小 于 Eps 的 点 将 被 标记 为 
核心 对 象 ,而 其 他 对 象 将 被 标记 为 噪声 对 象 或 边界 对 象 。 


算法 6-4 DBSCAN 算法 
输入 : 包含 nn 个 对 象 的 数据 集 
输出 : 基于 密度 的 簇 


将 所 有 数据 对 象 标 记 为 核心 对 象 . 边 界 对 象 或 噪声 对 象 
删除 噪声 对 象 

为 距离 在 Eps 之 内 的 所 有 核心 对 象 之 间 赋 予 一 条 边 

每 组 连通 的 核心 对 象形 成 一 个 簇 

将 每 个 边界 对 象 指派 到 一 个 与 之 关联 的 核心 对 象 的 簇 中 


an co 性 


如 果 簇 的 密度 变化 很 大 ,DBSCAN 可 能 出 现 问题 。 考 虑 图 6-15, 它 包含 4 个 隐藏 在 噪 
声 中 的 簇 。 簇 和 噪声 区 域 的 密度 由 它们 的 明暗 度 表 示 。 较 密 的 两 个 徐 A 和 B 周围 的 噪声 
的 密度 与 徐 C 和 D 的 密度 相同 。 如 果 Eps 阅 值 足够 低 , 使 得 DBSCAN 可 以 发 现 复 C 和 D， 
则 A、B 和 包围 它们 的 对 象 将 变 成 单个 徐 。 如 果 Eps 阅 值 足够 高 ,使 得 DBSCAN 可 以 发 现 
徐 A 和 B, 并 且 将 包围 它们 的 点 标记 为 噪声 , 则 C.D 和 包围 它们 的 对 象 也 将 被 标记 为 噪声 。 

因为 DBSCAN 使 用 簇 的 基于 密度 的 定义 ,因此 它 是 相对 于 噪声 的 ,并 且 可 以 处 理 任意 
形状 和 大 小 的 徐 。 这 样 ,DBSCAN 可 以 发 现 k 均值 或 k-medoids 方法 不 能 发 现 的 许多 簇 。 
然而 当 簇 密度 变化 过 大 时 ,DBSCAN 聚 类 效果 较 差 。 对 于 高 维 数据 ,由 于 这 样 的 数据 中 密 
度 更 难于 定义 ,所 以 难以 选择 合适 的 半径 。 


6-15 ”隐藏 在 噪声 中 的 4 个 簇 


6.3.5 STING 算法 


STING(Statistical Information Grid) 是 一 个 基于 网 格 的 多 分 辩 率 聚 类 技术 , 它 将 空间 
区 域 划分 为 矩形 单元 。 针 对 不 同 级 别 的 分 辩 率 ,通常 存在 多 个 级 别 的 矩形 单元 ,形成 了 一 个 
层次 结构 : 高 层 的 每 个 单元 被 划分 为 多 个 低 一 层 的 单元 。 关 于 每 个 网 格 单元 属性 的 统计 信 
息 ( 例 如 平均 值 .最 大 值 和 最 小 值 ) 都 预先 被 计算 和 存储 。 这 些 统计 信息 可 用 来 进行 下 面 描 
述 的 查询 处 理 。 

图 6-16 显示 了 STING 聚 类 的 一 个 层次 结构 。 从 上 而 下 ,分辩 率 由 低 到 高 。 高 层 单元 
的 统计 信息 可 以 很 容易 地 从 低层 单元 的 统计 信息 计算 获得 。 统 计 信息 主要 包括 : 落 入 矩形 
单元 的 数量 count, 属 性 的 平均 值 ,标准 差 ;, 最 小 值 min, 最 大 值 max, 属 性 值 概率 分 布 类 
型 distribution, 例 如 正 态 分 布 .均匀 分 布 、 指 数 分 布 或 未 知 。 当 数据 存放 到 数据 库 时 ， 
STING 直接 计算 最 底层 矩形 单元 统计 信息 count、m、s、min 和 max。 若 分 布 类 型 事先 已 知 ， 
distribution 可 以 直接 由 用 户 指定 ,也 可 以 通过 假设 检验 获取 。 高 层 矩 形 单元 的 distribution 
由 对 应 低层 单元 的 多 数 分 布 类 型 决定 , 若 对 应 低层 最 多 数 分 布 类 型 的 单元 数目 超过 给 定 阔 
值 , 则 高 层 单元 指定 为 低层 最 多 数 分 布 类 型 ,否则 设置 为 none。 


图 6-16 STING 上 聚 类 层次 结构 


STING 聚 类 方法 自 顶 向 下 地 使 用 矩形 单元 中 的 统计 量 。 首 先 , 根 据 应 用 需求 , 选 定 一 
个 层次 (一 般 为 高 层次 ) 作 为 查询 处 理 的 开始 点 。 一 般 情况 下 ,开始 层次 仅 含 少量 的 单元 。 
对 当前 层次 的 每 个 单元 ,计算 置信 区 间 用 以 反映 该 单元 与 给 定 查询 的 关联 程度 。 不 相关 的 
单元 不 考虑 , 低 一 层 的 处 理 只 检查 剩余 的 相关 单元 。 反 复 执行 该 过 程 , 直 到 达到 最 底层 。 此 
时 ,如 果 查 询 要 求 被 满足 ,那么 返回 相关 单元 的 区 域 。 否 则 ,检索 和 进一步 的 处 理 落 在 相关 
单元 中 的 数据 ,直到 它们 满足 查询 要 求 。STING 方法 表面 上 不 是 一 种 显然 的 聚 类 法 ,而 是 
用 来 进行 查询 处 理 , 但 该 方法 查询 返回 的 数据 对 象 就 是 某 一 聚 类 ,查询 处 理 本 质 上 等 价 于 聚 
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类 问题 。 

STING 方法 的 几 个 要 点 : 四 由 于 存储 在 每 个 矩形 单元 中 的 统计 信息 描述 了 单元 中 数 
据 的 与 查询 无 关 的 概要 信息 ,所 以 基于 网 格 的 计算 是 独立 于 查询 的 ; 思 网 格 结构 有 利于 并 
行 处 理 和 增 量 更 新 ; @@ 该 方法 的 效率 很 高 : STING 仅 需 扫描 数据 库 一 次 来 计算 单元 统计 信 
息 , 因 此 产生 聚 类 的 时 间 复 杂 度 是 O(n) ,n 是 数据 对 象 的 数量 。 在 层次 结构 建立 后 ,查询 处 
理 时 间 是 O(g), 这 里 g 是 最 底层 网 格 单元 的 数目 ,通常 远 远 小 于 "。 

由 于 STING 采用 了 一 个 多 分 辩 率 的 方法 来 进行 聚 类 分 析 ,STING 聚 类 的 质量 取决 于 
网 格 结构 最 底层 的 粒度 。 如 果 粒 度 比 较 细 ,处 理 的 代价 会 显著 增加 ; 但 是 如 果 粒 度 太 大 ,将 
会 降低 聚 类 分 析 的 质量 。 而 且 ,STING 在 构建 一 个 父 单元 时 没有 考虑 子 单元 和 其 相 邻 单元 
之 间 的 关系 。 因 此 ,结果 得 的 形状 是 等 位 的 , 即 所 有 的 聚 类 边界 或 者 是 水 平 的 ,或 者 是 垂直 
的 ,没有 斜 的 分 界线 ,尽管 该 技术 可 快速 处 理 数据 ,但 篮 的 质量 和 精确 性 可 能 不 高 。 


6.3.6 CLIQUE 算法 


一 般 聚 类 算法 设计 用 来 对 低 维 数据 对 象 进 行 聚 类 ,在 对 高 维 数据 空间 的 数据 对 象 进行 
聚 类 时 会 遇 到 问题 : 高 维 数据 集中 存在 大 量 无 关 的 属性 ,使 得 所 有 维 中 存在 簇 的 几率 几 
平 为 零 ; 四 高 维 空间 中 数据 比 低 维 空间 中 数据 分 布 要 稀 疏 ,其 中 数据 间距 离 几 乎 相等 是 普 
遍 现 象 ,一 般 聚 类 方法 是 基于 距离 进行 聚 类 ,在 高 维 空间 中 难以 划分 徐 。 为 解决 这 些 问 题 ， 
一 般 采 取 两 种 方法 : 特征 转换 ; @ 特 征 选择 / 子 空间 聚 类 。 特 征 转换 会 造成 初始 维度 实 
际 意 义 的 丢失 ,使 得 聚 类 结果 ,甚至 只 是 简单 的 组 合 的 解释 变 得 非常 困难 。 采 用 子 空间 聚 类 
则 可 让 聚 类 结果 变 得 更 简单 、 更 容易 解释 。 此 外 , 子 空间 聚 类 只 在 那些 相关 的 子 空间 上 执行 
聚 类 任务 ,因此 它 比 特征 转换 更 有 效 地 减少 维 。 子 空间 聚 类 算法 拓展 了 特征 选择 的 任务 , 尝 
试 在 相同 数据 集 的 不 同 子 空 间 上 发 现 聚 类 。 和 特征 选择 一 样 , 子 空间 聚 类 需要 使 用 一 种 搜 
索 策 略 和 评测 标准 来 筛选 出 需要 聚 类 的 得 ,不 过 考虑 到 不 同 簇 存在 于 不 同 的 子 空 间 ,需要 对 
评测 标准 做 一 些 限制 。 

CLIQUE(Clustering in QUEst) 聚 类 算法 是 一 种 综合 了 基于 密度 和 基于 网 格 的 子 空间 
聚 类 算法 ,用 来 对 大 型 数据 库 中 的 高 维 数据 进行 有 效 聚 类 。CLIQUE 是 IBM 的 Almaden 
研究 中 心 的 数据 挖掘 研究 课题 ,其 核心 思想 如 下 。 

(1) 给 定 一 个 多 维 数据 对 象 的 大 集合 .数据 对 象 在 数据 空间 中 通常 不 是 均匀 分 布 的 。 
CLIQUE 区 分 空间 中 稀 疏 的 和 拥挤 的 区 域 ,以 发 现 数据 集合 的 全 局 分 布 模式 。 

(2) 如 果 一 个 单元 中 包含 的 数据 点 超过 某 个 输入 参数 , 则 该 单元 是 密集 的 。 在 
CLIQUE 中 ,相连 密集 单元 的 最 大 集合 定义 为 簇 。 

CLIQUE 分 以 下 两 步 进 行 高 维 聚 类 。 

第 一 步 ,CLIQUE 将 户 维 数据 空间 划分 为 互 不 相交 的 长 方形 单元 ,识别 其 中 的 密集 单 
元 。 该 工作 对 每 一 维 进 行 。 例 如 .图 6-17 显示 了 关于 age 和 salary vocation 的 密集 的 长 方 
形 单元 。 代 表 这 些 密度 集 单元 的 相交 子 空间 形成 了 一 个 候选 搜索 空间 ,其 中 可 能 存在 更 高 
维度 的 密集 单元 。 

CLIQUE 将 更 高 维 密集 单元 的 搜索 限制 在 子 空间 密集 单元 的 交集 中 ,这 种 候选 搜索 空 
间 的 确定 采用 了 基于 关联 规则 挖掘 中 的 先 验 特性 。 一 般 来 说 ,该 特性 在 搜索 空间 中 利用 数 
据 项 的 先 验 知识 以 裁减 空间 。CLIQUE 所 采用 的 特性 如 下 : 如 果 一 个 维 单元 是 密集 的 ， 
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图 6-17 关于 age 与 salary vacation 的 密集 单元 
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那么 它 在 k 一 1 维 空间 上 的 投影 也 是 密集 的 。 也 就 是 说 ,给 定 一 个 k 维 的 候选 密集 单元 ,如 
果 我 们 检查 它 的 & 一 1 维 投影 单元 ,发 现任 何 一 个 不 是 密集 的 ,那么 我 们 知道 第 & 维 的 单元 
也 不 可 能 是 密集 的 。 因 此 ,我 们 可 以 从 k 一 1 维 空间 中 发 现 的 密集 单元 来 推断 维 空间 中 潜 
在 的 或 候选 的 密集 单元 。 通 常 ,最 终 的 结果 空间 要 比 初始 空间 小 很 多 。 然 后 检查 密集 单元 
决定 聚 类 。 

第 二 步 ,CLIQUE 为 每 个 复生 成 最 小 化 的 描述 。 对 每 个 复 , 它 确定 覆盖 相连 的 密集 单 
元 的 最 大 区 域 , 然 后 确定 最 小 的 覆盖 。 
因为 高 密度 的 聚 类 存在 于 子 空 间 中 ,CLIQUE 自动 地 发 现 最 高 维 的 子 空间 ,对 元 组 的 
输入 顺序 不 敏感 ,无 须 假设 任何 规范 的 数据 分 布 。 它 随 输 入 数据 的 大 小 线性 地 扩展 , 当 数据 
的 维 数 增加 时 具有 良好 的 可 扩展 性 。 但 是 ,由 于 方法 太 过 简化 , 聚 类 结果 的 精确 性 可 能 会 
降低 。 


6.4 ” 簇 评估 


对 于 监督 分 类 ,结果 分 类 模型 的 评估 是 分 类 模型 开发 过 程 中 必 不 可 少 的 部 分 ,并 且 
存在 广泛 接受 的 评估 度量 和 过 程 ,如 准确 率 和 交 双 确认。 然而 ,由 于 簇 的 特性 , 簇 评估 技 
术 未 受到 广泛 使 用 ,但 不 妨碍 簇 评 估 或 簇 确认 有 着 重要 意义 。 需 注意 的 是 ,不 同 簇 类 型 可 
能 需要 不 同 的 评估 度量 ,例如 ,k 均值 可 能 需要 用 SSE 来 评估 ,基于 密度 的 簇 不 是 球形 的 ， 
SSE 则 完全 不 起 作用 。 尽 管 如 此 , 簇 评估 应 该 是 聚 类 分 析 的 一 部 分 。 特 别 是 在 数据 集 的 簇 
结构 不 明显 ,在 高 维 空间 里 难 觉察 簇 结构 的 情况 下 ,复评 估 尤 其 重要 。 本 节 介 绍 常见 的 复评 
佑 技术 。 
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6.4.1 概述 


能 够 识别 数据 中 是 否 存 在 非 随 机 结构 是 簇 确认 的 重要 任务 之 一 。 下 面 列举 了 簇 确认 的 
一 些 重要 问题 。 

(1) 确定 数据 集 的 聚 类 趋势 , 即 识别 数据 中 是 否 存在 非 随机 结构 ; 

(2) 确定 正确 的 簇 个 数 ; 

(3) 不 引用 附加 信息 ,评估 聚 类 分 析 结 果 对 数据 的 拟 合 情 况 ; 

(4) 将 聚 类 分 析 结 果 与 已 知 的 客观 结果 ,如 外 部 提供 的 类 标号 ,进行 比较 ; 

(5) 比较 两 个 簇 集合 ,确定 哪个 更 好 。 

需 注 意 (1) 一 (3) 项 不 使 用 任何 外 部 信息 (采用 了 非 监 督 技术 ) ,第 (4) 项 使 用 外 部 信息 ， 
第 (5) 项 可 以 用 监督 或 非 监督 方式 进行 。 第 (3) 一 (5) 项 还 可 以 进一步 区 分 是 评估 整个 聚 类 
还 是 个 别 簇 。 

尽管 可 以 开发 各 种 数值 度量 从 不 同方 面 来 评估 上 述 簇 的 有 效 性 ,但 仍 存在 许多 问题 。 
首先 , 簇 的 有 效 性 度量 可 以 受 限 于 它 的 可 用 范围 。 例 如 , 簇 类 趋势 度量 方面 的 大 部 分 工作 都 
是 针对 二 三 维 空间 数据 。 其 次 ,需要 框架 来 解释 任意 度量 。 对 于 评估 簇 标号 与 外 部 提供 的 
类 标号 的 匹配 情况 的 度量 ,如 果 得 到 一 个 值 10, 那 么 这 个 值 如 何 度量 匹配 是 好 、 一 般 还 是 
差 ? 匹配 的 优良 度 通常 可 以 通过 考察 该 值 的 统计 分 布 来 度量 , 即 这 样 的 值 偶然 出 现 的 几率 
多 大 。 最 后 ,如 果 度 量 太 复杂 ,难以 使 用 或 难以 理解 , 则 很 少 有 人 愿意 使 用 它 。 

用 于 评估 簇 的 各 方 评估 度量 或 者 指标 一 般 分 成 如 下 三 类 。 

(1) 非 监督 的 。 聚 类 结构 的 优良 性 度量 ,不 考虑 外 部 信息 ,例如 SSE。 簇 的 有 效 性 的 非 
监督 度量 一 般 可 以 进一步 分 为 两 类 : 簇 的 凝聚 性 (紧凑 性 , 紧 致 性 ) ,度量 确定 簇 中 对 象 如 何 
密切 相关 ; 簇 的 分 离 性 (孤立 性 ) ,度量 确定 某 个 簇 不 同 于 其 他 簇 的 地 方 。 非 监督 度量 通常 
称 为 内 部 指标 ,因为 它们 仅 使 用 出 现在 数据 集中 的 信息 。 

(2) 监督 的 。 度 量 聚 类 算法 发 现 的 聚 类 结构 与 某 种 外 部 结构 的 匹配 程度 。 例 如 ,监督 
指标 的 炉 , 它 度量 簇 标号 与 外 部 提供 的 标号 的 匹配 程度 。 监 督 度量 通常 称 为 外 部 指标 ,因为 
它们 使 用 了 不 在 数据 集中 出 现 的 信息 。 

(3) 相对 的 。 比 较 不 同 的 聚 类 或 徐 。 相 对 簇 评估 度量 是 用 于 比较 有 监督 或 非 监 督 评估 
度量 。 因 而 ,相对 度量 实际 上 不 是 一 种 单独 的 簇 评估 度量 类 型 ,而 是 度量 的 一 种 具体 使 用 。 
例如 ,两 个 k 均值 聚 类 可 以 使 用 SSE 或 炉 进 行 比较 。 

本 节 剩 下 部 分 介绍 关于 簇 有 效 性 的 具体 内 容 。 首 先 介绍 关于 非 监督 簇 评 估 的 内 容 ， 
@ 基 于 凝聚 性 和 分 离 性 的 度量 ; @ 两 种 基于 邻近 度 矩 阵 的 技术 。 由 于 这 些 方法 仅 用 于 部 分 
簇 集合 ,因此 我 们 也 介绍 流行 的 共性 分 类 相关 系数 。 共 性 分 类 相关 系数 可 以 用 于 层次 聚 类 
的 非 监督 评估 ,之 后 简略 讨论 找 出 正确 的 簇 个 数 和 评估 聚 类 趋势 。 然 后 考虑 徐 有 效 性 的 监 
督 方法 ,如 炉 ,纯度 和 Jaccard 度量 。 最 后 ,简略 讨论 如 何 解释 ( 非 监督 或 监督 的 ) 有 效 性 度 
量 值 。 


6.4.2 非 监督 秘 评 估 : 使 用 凝聚 度 和 分 离 度 
对 于 划分 的 聚 类 方案 ,乌有 效 性 的 许多 内 部 度量 都 基于 凝聚 度 和 分 离 度 概念 。 本 节 对 
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基于 原型 和 基于 图 的 聚 类 技术 ,使 用 篮 有 效 性 度量 来 详细 研究 这 些 概念 。 在 此 过 程 中 ,将 看 
到 基于 原型 和 基于 图 的 聚 类 技术 之 间 的 一 些 联系 。 
通常 ,将 个 簇 的 集合 的 总 体 艇 有 效 性 表示 成 个 体 徐 有 效 性 的 加 权 和 : 


六 
overall validity = > rar validity(C;) (6-21) 
i=1 


其 中 ,validity 函数 可 以 是 凝聚 度 、 分 离 度 ,或 者 这 些 量 的 某 种 组 合 。 权 值 将 因 簇 有 效 性 
度量 而 异 , 见 表 6-3。 在 某 些 情况 下 , 权 值 可 以 简单 地 取 1 或 者 复 大 小 ; 在 其 他 情况 下 ,它们 
反映 更 复杂 的 性 质 ,如 凝聚 度 平 方 根 。 如 果 有 效 性 函数 为 凝聚 度 , 则 值 越 高 越 好 ; 如 果 是 分 
离 度 , 则 值 越 低 越 好 。 


表 6-3 基于 图 的 簇 评估 度量 表 


名 称 入 度 量 禾 权 什 类 型 
imity(Czyy) 
五 了 oy A 基于 图 的 凝聚 度 
五 DY proximity(z,C)) 1 基于 原型 的 凝聚 度 
EC 
& proximity(C; ,c) ms 基于 原型 的 分 离 度 
i 1 
9 2 2 proximity(zr'y) | 5) proximity(z,y) | 基于 图 的 凝聚 度 和 分 离 度 
j= lj#irECiyEC) zs€EC EC 


1. 凝聚 度 和 分 离 度 的 基于 图 的 观点 

对 于 基于 图 的 簇 , 簇 的 凝聚 度 可 以 定义 为 连接 簇 内 点 的 邻近 度 图 中 边 的 加 权 和 ,如 
图 6-18(a) 所 示 。 邻 近 度 图 以 数据 对 象 为 结 点 ,每 对 数据 对 象 之 间 一 条 边 , 并 且 每 条 边 指派 
一 个 权 值 , 它 是 边 所 关联 的 两 个 数据 对 象 之 间 的 邻近 度 。 同 样 ,两 个 簇 之 间 的 分 离 度 可 以 用 
从 一 个 簇 的 点 到 另 一 个 簇 的 点 的 边 的 加 权 和 来 度量 ,如 图 6-18(b) 所 示 。 


是 仆 / 
/ \ . ' 
一 \、) 1 


(a) 凝聚 度 (b) 分 离 度 
图 6-18 ”凝聚 度 和 分 离 度 的 基于 图 的 观点 


基于 图 的 簇 的 凝聚 度 和 分 离 度 可 以 分 别 用 式 (6-22) 和 式 (6-23) 表 示 , 其 中 ,proximity 
函数 可 以 是 相似 度 、 相 异 度 ,或 者 是 这 些 量 的 简单 函数 。 


cohesion(C;) = DD proximity(x,y) (6-22} 
zEC YEC, 
separation(Ci,C;) = 加) proximity(x,y) (6=23) 
zEC EC 


2. 凝聚 度 和 分 离 度 的 基于 原型 的 观点 
对 于 基于 原型 的 徐 , 簇 的 凝聚 度 可 以 定义 为 关于 簇 原型 (质心 或 中 心 点 ) 的 邻近 度 的 和 。 
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同 理 , 两 个 簇 之 间 的 分 离 度 可 以 用 两 个 簇 原型 的 邻近 性 度量 。 图 6-19 给 出 了 图 示 , 其 中 簇 
的 质心 用 “十 ”标记 。 


h 后 记名 上 【3 一 -一 一 -一 一 一 一 LCL--—-—— 
全 一 小 、 二 NE 
(@) 凝聚 度 (b) 分 离 度 


图 6-19 ”凝聚 度 和 分 离 度 的 基于 原型 的 观点 


基于 原型 的 凝聚 度 由 公式 (6-24) 给 出 ,而 两 个 分 离 性 度量 分 别 由 公式 (6-25) 和 公 
式 (6-26) 给 出 ,其 中 ,ci; 是 簇 C, 的 原型 (质心 ), 而 c 是 总 体 原型 (质心 )。 对 于 分 离 性 ,存在 
两 种 度量 ,这 是 因为 复原 型 与 总 原型 的 分 离 度 有 时 与 复原 型 之 间 的 分 离 度 直接 相关 。 注 意 ， 
如 果 取 邻近 度 为 欧 氏 距离 的 平方 , 则 公式 (6-24) 是 簇 的 SSE。 


cohesion(C;) = Dy proximity (x ci) (6-24) 
z€C; 

separation(Ci,C;) = proximity(ci,c;) (6-25) 

separation(Ci) = proximity(ci,c) (6-26) 


3 凝聚 度 和 分 离 度 的 总 和 量 

前 面 的 凝聚 度 和 分 离 度 定义 给 出 了 簇 的 有 效 性 的 简单 而 严格 定义 的 量 。 通 过 使 用 加 权 
和 可 以 将 它们 组 合成 簇 的 有 效 性 的 总 量 , 如 公式 (6-21) 所 示 , 但 需要 决定 使 用 什么 权 值 。 尽 
管 通常 权 值 是 得 大 小 的 某 种 度量 ,但 是 可 用 的 权 值 变化 范围 很 大 。 

表 6-3 提供 了 基于 凝聚 性 和 分 离 性 的 有 效 性 度量 的 例子 。 互 用 得 中 每 对 对 象 邻近 度 除 
以 篮 的 大 小 来 度量 凝聚 性 。 王 基于 得 中 对 象 与 复 质 心 的 邻近 度 之 和 来 度量 凝聚 性 。8 是 一 
种 分 离 性 度量 ,定义 为 簇 质心 与 总 质心 的 邻近 度 乘 以 簇 中 对 象 的 个 数 。9 是 一 种 基于 凝聚 
性 和 分 离 性 的 度量 ,是 徐 中 所 有 对 象 与 秘 外 所 有 对 象 的 邻近 度 之 和 (邻近 度 图 中 将 复 分 开 必 
须 切断 的 边 的 总 权 值 ) 除 以 化 内 对 象 逐 对 邻近 度 之 和 。 

需 注意 簇 的 有 效 性 的 任何 非 监督 度量 都 可 以 作为 聚 类 算法 的 目标 函数 使 用 ,反之 亦 然 。 

4. 基于 原型 的 凝聚 度 和 基于 图 的 凝聚 度 之 间 的 联系 

尽管 度量 簇 的 凝聚 性 和 分 离 性 的 基于 图 的 方法 与 基于 原型 的 方法 看 上 去 截然 不 同 ,但 


是 对 于 某 些 邻近 性 度量 ,它们 是 等 价 的 。 例 如 ,对 于 SSE 和 欧 氏 空间 的 点 ,可 以 证 明 ( 公 
式 (6-27)) 簇 中 每 对 点 的 平均 距离 等 于 簇 的 SSE。 
Cluster SSE = Ddist (es) 二 六 Ddist (zsy} (6-27) 
zEC; 2mizet et 


5. 两 种 基于 原型 的 分 离 性 度量 方法 

当 邻 近 度 用 欧 氏 距离 度量 时 , 簇 之 间 分 离 性 的 传统 度量 是 组 平方 和 (SSB) , 即 簇 质 心 c 
到 所 有 数据 点 的 总 均值 c 的 距离 的 平方 和 。 通 过 在 所 有 簇 对 SSB 求 和 ,得 到 总 SSB, 由 公 
式 (6-28) 给 出 ,其 中 ,c; 是 第 i 个 簇 的 均值 ,而 c 是 总 均值 。 总 SSB 越 高 , 簇 之 间 的 分 离 性 
越 好 。 
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SSB = Dm dist (ciyc)2 (6-28) 


可 以 直接 证 明 , 总 SSB 与 质 心 之 间 的 逐 对 距离 有 直接 关系 。 特别 是 如 果 簇 的 大 小 相 
等 , 即 mi 二 mm/k, 则 该 关系 取 公 式 (6-29) 给 出 的 简单 形式 。 正 是 这 类 等 价 性 诱导 了 公 
式 (6-25) 和 公式 (6-26) 的 原型 分 离 度 定义 。 

| EY 7 2 
SSB = 未 之 加 dist (cs0) (6-29) 


6. 凝聚 度 和 分 离 度 之 间 的 联系 

在 某 些 情况 下 ,凝聚 度 和 分 离 度 之 间 存 在 着 强 联系 。 具 体 来 说 ,可 以 证 明 总 SSE 和 总 
SSB 之 和 是 一 个 常数 , 它 等 于 总 平方 和 (TSS), 即 每 个 点 到 数据 的 平均 值 的 距离 的 平方 和 。 
这 个 结果 的 重要 性 在 于 : 最 小 化 SSE( 凝 聚 度 ) 等 价 于 最 大 化 SSB( 分 离 度 ) 。 

下 面 给 出 证 明 。 证 明 所 用 的 方法 也 适用 于 证 明 前 两 节 陈 述 的 关系 。 为 了 简化 证 明 过 
程 ,假设 数据 是 一 维 的 , 即 distCz,y)=(z 一 y):。 证明 中 还 使 用 了 交叉 项 和 > (z 一 cD)(c 一 

i=1 zeEcCi 
ci) 为 0 的 事实 。 
TSS = > Do 


i=l zx€EC: 


4 
= (zoe) — (oe))’ 
i=] zxEcCi 
3 3 大 
一 人 》) >》) (=o =22 》 (人 一 6 一 人 一 站 二 2 > (ce 一 全 六 
i=1 rzECi i=1 zx€C; i=1 z€C; 
3 大 
一 2) >) re) + 2 2 (oe) 
i=] rE€C., 1 一 1 zx€C, 
3 
-基色 (z 一 ci )+ | Gi | (ce 一 co 
i=1 reEC 


人 评估 个 体 簇 和 对 象 

迄今 为 止 ,我 们 一 直 关 注 使 用 凝聚 度 和 分 离 度 对 一 组 簇 进行 总 评估 。 许 多 艇 的 有 效 性 
度量 也 能 用 来 评估 个 体 复 和 对 象 。 例 如 ,可 以 根据 篮 的 有 效 性 ( 即 凝 聚 度 和 分 离 度 ) 的 具体 
值 确定 个 体 复 的 秩 。 可 以 认为 具有 较 高 凝聚 度 值 的 侯 比 具有 较 低 凝聚 度 值 的 篮 好 。 这 种 信 
息 通常 可 以 用 来 提高 聚 类 的 质量 。 例 如 ,如 果 簇 凝聚 性 不 好 , 则 我 们 可 能 希望 将 它们 分 裂 成 
若干 个 子 侯 。 另 一 方面 ,如 果 两 个 簇 相 对 凝聚 ,但 分 离 性 不 好 , 则 我 们 可 能 需要 将 它们 合并 
成 一 个 簇 。 

我 们 也 可 以 根据 对 象 对 簇 的 总 凝聚 度 或 分 离 度 的 贡献 ,评估 簇 中 对 象 。 对 凝聚 度 和 分 
离 度 贡 献 越 大 的 对 象 越 靠近 簇 的 “内 部 ”, 反 之 ,对 象 可 能 离 复 的 “边缘 ”很 近 。6. 4. 3 节 考 虑 
一 种 评估 度量 , 它 使 用 基于 这 些 思想 的 方法 评估 数据 对 象 徐 和 整个 簇 集合 。 

8. 轮廓 系数 

流行 的 轮廓 系数 方法 结合 了 凝聚 度 和 分 离 度 。 下 面 的 步骤 解释 如 何 计算 个 体 点 的 轮廓 
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系数 。 此 过 程 由 如 下 三 步 组 成 。 这 里 使 用 了 距离 度量 ,但 是 类 似 的 方法 可 以 使 用 相似 度 。 

(1) 对 于 第 i 个 对 象 ,计算 它 到 簇 中 所 有 其 他 对 象 的 平均 距离 。 该 值 记 作 a;。 

(2) 对 于 第 i 个 对 象 和 不 包含 该 对 象 的 任意 徐 , 计 算 该 对 象 到 给 定 簇 中 所 有 对 象 的 平 
均 距 离 。 关 于 所 有 的 簇 , 找 出 最 小 值 , 记 作 6;。 

(3) 对 于 第 i 个 对 象 , 轮 廓 系数 是 ;二 (6; 一 a;)/max(a;,b;)。 

轮廓 系数 的 值 在 一 1 一 1 之 间 变 化 。 不 希望 出 现 负 值 ,因为 负 值 表示 点 到 簇 内 点 的 平均 
距离 a; 大 于 点 到 其 他 簇 的 最 小 平均 距离 六。 我 们 希望 轮廓 系数 是 正 的 (w% 去 久 ) ,并 且 a; 越 
接近 0 越 好 ,因为 当 w 一 0 时 轮廓 系数 取 其 最 大 值 1。 

可 以 简单 地 取 复 中 点 的 轮廓 系数 的 平均 值 ,计算 得 的 平均 轮廓 系数 。 通 过 计算 所 有 点 
的 平均 轮廓 系数 ,可 以 得 到 聚 类 优良 性 的 总 度量 。 

图 6-20 显示 了 10 个 簇 中 点 的 轮廓 系数 图 。 较 黑 的 阴影 指示 较 小 的 轮廓 系数 。 
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图 6-20 10 个 簇 中 点 的 轮廓 系数 


6.4.3 非 监督 位 评 估 : 使 用 邻近 度 矩 阵 


本 节 考 察 两 种 基于 邻近 度 怎 阵 评估 得 的 有 效 性 的 非 监督 方法 。 第 一 种 比较 实际 的 邻近 
度 和 矩阵 和 理想 的 邻近 度 矩 阵 ,而 第 二 种 使 用 可 视 化 技术 。 

1. 通过 相关 性 度量 簇 的 有 效 性 

如 果 给 定数 据 集 的 相似 度 和 矩阵 和 数据 集聚 类 分 析 得 到 的 簇 标 号 , 则 可 以 通过 考察 相似 
度 和 矩阵 和 基于 簇 标号 的 相似 度 矩 阵 的 理想 版 本 之 间 的 相关 性 来 评估 聚 类 的 “优良 性 "。 具 体 
来 说 ,理想 的 得 是 这 样 的 得, 它 的 点 与 复 内 所 有 点 的 相似 度 为 1, 而 与 其 他 簇 中 的 所 有 点 的 
相似 度 为 0。 这 样 , 如 果 将 相似 度 矩 阵 的 行 和 列 排 序 , 使 得 属于 相同 簇 的 对 象 在 一 起 , 则 理 
想 的 相似 度 矩 阵 具 有 块 对 角 结 构 。 换 言 之 ,在 相似 度 和 矩阵 中 代表 簇 内 相似 度 的 项 的 块 内 部 
相似 度 非 0, 而 其 他 地 方 为 0。 理 想 的 相似 度 矩 阵 可 以 通过 如 下 方法 构造 : 创建 一 个 矩阵 ， 
每 个 数据 点 一 行 一 列 ( 与 实际 的 相似 度 矩 阵 类 似 ) ,矩阵 的 一 个 项 为 1, 如果 它 所 关联 的 一 对 
点 属于 同一 个 簇 ,其 他 项 为 0。 理 想 和 实际 相似 度 矩 阵 之 间 高 度 相关 表明 属于 同一 个 簇 的 
点 相互 之 间 很 接近 ,而 低 相 关 性 表明 相反 情况 。( 由 于 实际 和 理想 相似 度 和 矩阵 都 是 对 称 的 ， 
因此 只 需要 对 和 矩阵 对 角 线 下 方 或 上 方 的 n(n 一 1)/2 个 项 计算 相关 度 。) 对 于 许多 基于 密度 和 
基于 近邻 的 簇 ,这 不 是 好 的 度量 ,因为 它们 不 是 球形 的 ,并 且 常 常 与 其 他 簇 紧密 地 盘 绕 在 
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一 起 。 

2. 通过 相似 度 和 矩阵 可 视 化 地 评价 聚 类 

前 面 的 技术 使 人 联想 起 一 种 评价 簇 集合 的 一 般 的 、 定 性 的 方法 : 按照 篮 标 号 调整 相似 
度 和 矩阵 的 行列 次 序 , 然 后 画 出 它 。 从 理论 上 讲 , 如 果 有 明显 分 离 的 簇 , 则 相似 度 矩 阵 应 当 粗 
略 地 是 块 对 角 。 如 果 不 是 , 则 相似 度 和 矩阵 所 显示 的 模式 可 能 揭示 了 簇 之 间 的 联系 。 所 有 这 
些 也 可 以 用 于 相 异 度 和 矩阵 ,简单 起 见 , 这 里 仅 讨 论 相似 度 和 矩阵 。 

对 于 大 型 数据 集 , 该 方法 开销 太 大 ,因为 相似 度 计算 需要 Ol) 时 间 , 其 中 ,n 是 对 象 个 
数 。 但 是 使 用 抽样 ,该 方法 仍然 可 以 使 用 。 我 们 可 以 从 每 个 簇 抽 取 数 据 对 象 样本 ,计算 这 些 
数据 点 之 间 的 相似 度 , 然 后 绘图 。 可 能 需要 对 小 簇 多 抽样 ,对 大 簇 少 抽样 ,以 得 到 所 有 的 簇 
的 足够 代表 。 


6.4.4 层次 聚 类 的 非 监督 评估 


前 面 的 簇 评估 方法 是 为 了 划分 聚 类 设计 的 。 这 里 讨论 一 种 用 于 层次 聚 类 的 流行 的 评估 
度量 一 一 共性 分 类 相关 。 两 个 对 象 之 间 的 共性 分 类 距离 是 凝聚 层次 聚 类 技术 首次 将 对 象 放 
在 同一 个 徐 时 的 邻近 度 。 例 如 ,如 果 在 凝聚 层次 聚 类 进程 的 某 个 时 刻 , 两 个 合并 的 簇 之 间 的 
最 小 距离 是 0.1, 则 一 个 簇 中 的 所 有 点 关于 另 一 个 簇 中 各 点 的 共性 分 类 距离 都 是 0. 1。 在 共 
性 分 类 距离 矩阵 中 ,项 是 每 对 对 象 之 间 共 性 分 类 距离 。 点 集 的 每 个 层次 聚 类 的 共性 分 类 距 
离 不 同 。 

共性 分 类 相关 系数 (Cophenetic Correlation Coefficient,CPCC) 是 该 矩阵 与 原来 的 相 异 
度 和 矩阵 的 项 之 间 的 相关 度 , 是 (特定 类 型 的 ) 层 次 聚 类 对 数据 拟 合 程度 的 标准 度量 。 该 度量 
的 最 常见 应 用 是 评估 对 于 特定 的 数据 类 型 , 哪 种 类 型 的 层次 聚 类 最 好 。 


6.4.5 确定 正确 的 乱 个 数 


多 种 非 监 督 簇 评估 度量 都 可 以 用 来 近似 地 确定 正确 的 或 自然 的 簇 个 数 。 

图 6-20 的 数据 集 有 10 个 自然 簇 ,图 6-21 显示 了 该 数据 集 的 (二 分 )k 均值 聚 类 发 现 的 
簇 个 数 的 SSE 曲线 ,而 图 6-22 显示 了 相同 数据 的 簇 个 数 的 平均 轮廓 系数 曲线 。 当 簇 个 数 等 
于 10 时 ,SSE 有 一 个 明显 的 拐点 ,而 轮廓 系数 有 一 个 明显 的 顶峰 。 


10 


轮廓 系数 


多 | 
m4 | 


0 5 10 15 20 25 30 “0 5 10 15 20 25 30 
禾 个 数 禾 个 数 


图 6-21 数据 簇 个 数 的 SSE 曲线 图 6-22 ”数据 簇 个 数 的 平均 轮廓 系数 曲线 


这 样 ,我 们 可 以 尝试 通过 寻找 簇 个 数 的 评估 度量 曲线 图 中 的 拐点 、 尖 峰 或 下 降 点 发 现 簇 
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的 自然 个 数 。 当 然 ,这 种 方法 并 不 总 是 有 效 的 。 与 图 6-20 相 比 , 簇 可 能 盘 绕 或 交 秋 得 更 历 
害 。 此 外 ,数据 中 也 可 能 包含 嵌 套 的 位。 事实 上 ,图 6-20 中 的 簇 也 有 点 儿 艇 套 , 即 5 对 簇 ， 
因为 上 下 的 簇 比 左 右 的 簇 更 靠近 。SSE 曲线 有 一 个 拐点 ,指明 了 这 一 点 ,但 是 轮廓 系数 曲 
线 没有 这 么 清楚 。 总 而 言 之 ,尽管 需要 小 心 ,刚才 讨论 的 技术 还 是 可 以 帮助 我 们 洞察 数据 簇 
的 个 数 。 


6.4.6 聚 类 趋势 


确定 数据 集中 是 否 包 含 篮 的 一 种 显而易见 的 方法 是 试 着 对 它 聚 类 。 然 而 ,给 定数 据 集 ， 
几乎 所 有 的 聚 类 方法 都 责无旁贷 地 发 现 徐 。 为 了 处 理 这 一 问题 ,我们 可 以 评估 簇 ,至 少 有 些 
徐 具 有 好 的 质量 ,才能 说 数据 集 包含 徐 。 然 而 ,事实 是 数据 集中 可 能 存在 不 同 于 我 们 的 聚 类 
算法 所 能 发 现 的 簇 类 型 。 如 果 出 现 这 种 情况 ,该 方法 就 不 能 处 理 。 为 了 处 理 这 样 的 问题 ,我 
们 可 以 使 用 多 种 算法 ,并 评估 结果 簇 的 质量 。 如 果 簇 都 很 差 , 则 可 能 表明 数据 中 确实 没 
有 簇 。 

换 一 种 方式 ,我 们 可 以 关注 聚 类 趋势 度量 一 一 试图 评估 数据 集中 是 否 包含 簇 ,而 不 进行 
聚 类 。 最 常用 的 方法 (特别 是 对 欧 氏 空间 的 数据 ) 是 使 用 统计 检验 来 检验 空间 随机 性 。 然 
而 ,选择 正确 的 模型 ,估计 参数 ,评估 数据 是 非 随机 的 假设 统计 数据 ,这 一 切 可 能 非常 具有 挑 
战 性 。 尽 管 如 此 ,人 们 已 经 开发 了 许多 方法 ,其 中 大 部 分 是 针对 低 维 欧 氏 空间 中 的 数据 
对 象 。 

Hopkins( 霍 普 金 斯 ) 统 计量 : 对 于 该 方法 ,我们 产生 p 个 随机 地 分 布 在 数据 空间 上 的 数 
据 对 象 ,并 且 也 抽取 p 个 实际 数据 对 象 。 对 于 这 两 个 数据 集 , 找 出 每 个 数据 到 元 数据 集 的 
最 近邻 距离 。 设 u; 是 人 工 产 生 的 点 的 最 近 距 离 ,而 rw 是 样本 到 元 数据 集 的 最 近邻 距离 。 
Hopkins 统计 量 玉 由 公式 (6-30) 定 义 : 


万 = 一 -一 一 一 (6-30) 


值 接近 0 或 1 分 别 表明 数据 是 高 度 聚 类 的 和 数据 在 数据 空间 是 有 规律 分 布 的 。 


6.4.7 徐 有 效 性 的 监督 度量 


当 我 们 获得 关于 数据 的 外 部 信息 时 ,通常 是 从 外 部 导出 的 数据 对 象 的 类 标号 形式 。 在 
这 种 情况 下 ,通常 的 做 法 是 度量 簇 标号 与 类 标号 的 对 应 程度 。 但 是 ,这 样 做 的 目的 是 什么 ? 
归根 结 底 , 如 果 有 了 类 标号 ,进行 聚 类 分 析 的 目的 何在 ?这 种 分 析 的 动机 是 比较 聚 类 技术 与 
“基本 事实 ”, 或 评估 人 工分 类 过 程 可 以 在 多 大 程度 上 被 聚 类 分 析 自 动 地 实现 。 

考虑 两 类 不 同 的 方法 。 第 一 组 技术 使 用 分 类 的 度量 ,如 炉 ,纯度 和 下 上 度量。 这 些 度量 
评估 簇 包含 单个 类 的 对 象 的 程度 。 第 二 组 方法 涉及 二 元 数据 的 相似 性 度量 ,如 Jaccard 度 
量 。 这 些 方法 评估 度量 的 程度 ,同一 个 类 的 两 个 对 象 在 同一 个 簇 中 ,或 相反 。 为 方便 起 见 ， 
分 别称 这 两 类 度量 为 面向 分 类 的 和 面向 相似 性 的 。 


音 ， 娶 类 
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1. 徐 有 效 性 的 面向 分 类 的 度量 


有 许多 度量 (如 炉 、 纯 度 、 精 度 、 召 回 率 和 下 度量) 普遍 用 来 评估 分 类 模型 的 性 能 。 对 于 
分 类 ,我 们 度量 预测 的 类 标号 与 实际 类 标号 的 对 应 程度 ,但 是 对 于 上 面 提 到 的 度量 ,通常 使 
用 簇 标号 而 不 是 预测 的 类 标号 ,不 需要 做 重大 改变 。 下 面 简略 地 回顾 这 些 度 量 的 定义 。 

(1) 炉 : 每 个 簇 由 单个 类 的 对 象 组 成 的 程度 。 对 于 每 个 簇 ,首先 计算 数据 的 类 分 布 , 即 
对 于 簇 i, 计 算 簇 i 的 成 员 属 于 类 j 的 概率 p; 二 nj /ni, 其 中 ,n; 是 簇 i 中 对 象 的 个 数 , 而 n; 是 


秘 ; 中 类 ;7 的 对 象 个 数 。 使 用 类 分 布 , 用 标准 公式 e = 一 > ) ps logz ps 计算 每 个 簇 i 的 , 其 


中 世 是 类 的 个 数 。 徐 集 合 的 总 和 用 每 个 复 的 焙 的 加 权 和 计算 , 即 e = ei, 其 中 ,k 是 簇 


的 个 数 ,而 是 数据 点 的 总 数 。 
(2) 纯度 : 簇 包含 单个 类 的 对 象 的 另 一 种 度量 程序 。 使 用 前 面 的 术语 , 簇 i 的 纯度 是 p 二 


下 
maxjps， 而 聚 类 的 总 纯度 是 purity 一 > pp;。 
i=1 


(3) 精度 : 簇 中 一 个 特定 类 的 对 象 所 占 的 比例 。 簇 i 关于 类 j 的 精度 是 precision(i, 站 二 ps 。 

(4) 召回 率 : 簇 包 含 一 个 特定 类 的 所 有 对 象 的 程度 。 簇 i 关于 类 j 的 召回 率 是 recall 
(i) 门 二 m3 /nj ,其 中 ,n; 是 类 j 的 对 象 个 数 。 

(5) 下 度量 : 精度 和 召回 率 的 组 合 ,度量 在 多 大 程度 上 , 簇 只 包含 一 个 特定 类 的 对 象 和 
包含 该 类 的 所 有 对 象 的 比率 。 簇 i 关于 类 j 的 下 度量 是 : 

F(i,j) = (2 X precision(i,j) X recall(i,j)))/(precision(i,j) recall(i,;)) (6-31) 

2. 徐 有 效 性 的 面向 相似 性 的 度量 

本 节 讨 论 的 度量 都 基于 这 样 一 个 前 提 : 同一 个 簇 的 任意 两 个 对 象 也 应 当 在 同一 个 类 ， 
反之 亦 然 。 我 们 可 以 把 这 种 得 的 有 效 性 方法 看 作 涉及 两 个 矩阵 的 比较 : 前 面 讨论 过 的 理 
想 的 复 相 似 度 矩阵 ,其 第 项 为 1, 如 果 两 个 对 象 ; 和 j 在 同一 个 簇 ; 否则 为 0。@ 关 于 类 
标号 定义 的 理想 的 类 相似 度 矩 阵 ,其 第 立项 为 1, 如果 两 个 对 象 和 /7 在 同一 个 类 ,否则 为 
0。 与 前 面 一 样 , 可 以 取 这 些 矩 阵 的 相关 度 作为 得 有 效 性 的 度量 。 在 聚 类 确认 文献 中 ,该 度 
量 称 作 下 统计 量 。 

例 : 徐 和 类 和 矩阵 之 间 的 相关 性 。 为 了 更 具体 地 解释 这 一 思想 ,我 们 给 出 一 个 例子 ,涉及 
5 个 数据 点 pi ,ps ,ps ;pss,ps :两 个 钱 Ci 二 {pispzsps}、Cz 二 {pasps} ,以 及 两 个 类 LL = {pi， 
pz) ,L; 二 {ps,psps)。 理 想 的 徐 和 类 相似 度 和 矩阵 分 别 在 表 6-4 和 表 6-5 中 给 出 。 这 两 个 矩 
阵 项 之 间 的 相关 度 为 0. 359。 


表 6-4 理想 的 簇 相似 度 和 矩阵 


点 pi 了 2 ps ps Ps 
pi 1 和 1 0 0 
p: 1 1 1 0 0 
ps 1 EE | 0 0 
ps 0 0 0 1 1 
ps 0 0 0 1 1 
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表 6-5 理想 的 类 相似 度 和 矩阵 


Pi Pp: Ps ps Ps 


3 

SleSololr-|- 
ololol~-|- 
i~|i~iolo 


0 
0 
1 
1 


-|i-i-lolo 


更 一 般 地 ,可 以 使 用 任何 二 元 相似 性 度量 。 例 如 ,可 以 将 这 两 个 矩阵 转换 成 二 元 向 量 。 
我 们 重 述 用 于 定义 这 些 相 似 性 度量 的 4 个 量 ,但 是 稍 加 修改 ,以 适用 当前 情况 。 具 体 地 说 ， 
我 们 需要 对 所 有 的 不 同 对 象 对 ,计算 如 下 4 个 量 。( 如 果 交 是 对 象 的 个 数 , 则 这 样 的 对 象 对 
有 m(z 一 1)/2 个 。) 

fw 二 具有 不 同 的 类 和 不 同 的 簇 的 对 象 对 的 个 数 

fu 二 具有 不 同 的 类 和 相同 的 徐 的 对 象 对 的 个 数 

fw 二 具有 相同 的 类 和 不 同 的 簇 的 对 象 对 的 个 数 

fu 三 具有 相同 的 类 和 相同 的 徐 的 对 象 对 的 个 数 

特别 地 ,在 这 种 情况 下 , 称 作 Rand 统计 量 的 简单 匹配 系数 和 Jaccard 系数 是 两 种 最 常 
用 的 簇 有 效 性 度量 。 


Jo 十 fu b 
R 一 OO (6-32) 
uy Jo 十 fo 十 .十 
fu a 
以 之 -Yr ) 
aseare Jo 十 .oo 十 ja 959 


根据 这 些 公式 ,可 以 立即 计算 Rand 统计 量 和 Jaccard 系数 。 注 意 , fo 二 4, fo 二 2, fo 二 2， 
fun 二 2,Rand 统计 量 =(2 十 4)/10==0.6, 而 Jaccard 系数 二 2/ (2 十 2 十 2) 二 0. 33。 
还 要 注意 ,这 4 个 量 fo Au Po 和 fu 定义 了 相依 表 , 如 表 6-6 所 示 。 


表 6-6 确定 对 象 对 是 否 在 相同 的 类 和 相同 的 簇 的 二 路 相依 表 


相同 的 簇 不 同 的 簇 
相同 的 类 fu fo 
不 同 的 类 fa fo 


3。 层次 聚 类 的 徐 有 效 性 

本 节 迄 今 为 止 , 仅 对 划分 得 聚 类 讨论 了 得 有 效 性 的 监督 度量 。 由 于 各 种 原因 (包括 先前 
存在 的 层次 结构 常常 不 再 存在 ) ,层次 聚 类 的 监督 评估 更 加 困难 。 这 里 给 出 一 个 根据 类 标号 
集 评 估 层 次 聚 类 方法 的 例子 。 类 标号 可 能 比 先前 存在 的 复 结 构 更 容易 得 到 。 

该 方法 的 关键 思想 是 ,评估 层次 聚 类 是 否 对 于 每 个 类 ,至 少 有 一 个 簇 相对 较 纯 ,并 且 包 
含 该 类 的 大 部 分 对 象 。 为 了 根据 此 目标 评估 层次 聚 类 ,我们 对 每 个 类 ,计算 簇 层 次 结构 中 每 
个 簇 的 下 度量 。 对 于 每 个 类 , 取 最 大 下 上 度量。 最 后 ,通过 计算 每 类 的 下 度量 的 加 权 平 均 , 计 
算 层 次 聚 类 总 下 度量 ,其 中 , 权 值 是 基于 类 的 大 小 。 该 层次 下 度量 在 形式 上 的 定义 如 下 : 


F= 2 maxF (i,)) (6-34) 
7 
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其 中 ,最 大 值 在 所 有 层 的 所 有 簇 i 上 取 ,m; 是 类 j 中 对 象 的 个 数 ,而 m 是 对 象 的 总 数 。 


6.5 聚 类 与 分 类 比较 


聚 类 可 看 作 一 种 特殊 的 分 类 , 它 用 由 数据 导出 的 类 ( 簇 ) 标 号 创建 对 象 的 标记 ,然而 与 分 
类 又 有 很 大 的 不 同 。 

分 类 依赖 于 已 知 类 别 的 数据 对 象 , 类 是 预先 定义 的 ,类 别 数 已 知 。 在 分 类 分 析 中 ,对 于 
目标 数据 集中 存在 哪些 类 是 已 知 的 ,要 做 的 就 是 将 每 个 数据 对 象 分 别 属于 哪 一 类 标记 出 来 。 
在 机 器 学 习 领 域 ,分 类 是 监督 学 习 , 称 为 监督 分 类 。 监 督 分 类 需 提 供 若 干 已 标记 的 模式 ( 预 
分 类 过 的 ) 开 发 模型 ,为 一 个 新 遇 到 的 但 新 的 、 无 标记 的 模式 标记 类 别 号 。 监 督 分 类 依赖 于 
已 知 类 别 的 训练 样本 ,因此 又 称 分 类 是 通过 例子 学 习 的 。 

聚 类 要 划分 的 类 、 类 别 个 数 都 是 未 知 的 。 在 不 知道 目标 数据 集 到 底 有 多 少 类 的 情况 下 ， 
将 所 有 数据 对 象 划分 成 不 同 的 类 或 者 说 * 聚 类 ”, 并 且 使 得 在 这 种 分 类 情况 下 ,以 某 种 度量 为 
标准 的 相似 性 ,在 同一 聚 类 之 间 最 小 化 ,而 在 不 同 聚 类 之 间 最 大 化 。 在 机 器 学 习 领 域 , 聚 类 
是 无 监督 学 习 , 为 此 , 称 聚 类 分 析 为 非 监督 分 类 。 非 监督 分 类 将 已 给 定 的 若干 无 标记 的 模式 
聚集 起 来 ,使 之 成 为 有 意义 的 聚 类 。 聚 类 不 依赖 预先 定义 的 类 和 训练 样本 ,因此 又 称 聚 类 是 
观察 学 习 的 。 

在 数据 挖掘 中 ,不 附加 任何 条 件 使 用 术语 分 类 时 ,通常 是 指 监督 分 类 。 


小 结 


聚 类 技术 属于 无 监督 学 习 技术 ,可 在 不 知道 数据 有 哪些 或 多 少 类 别 , 且 无 包含 类 标签 的 
训练 集 的 情况 下 ,通过 观察 数据 对 象 的 特征 ,可 对 数据 进行 类 别 划 分 。 本 章 学 习 了 聚 类 分 析 
技术 ,首先 介绍 了 聚 类 的 基本 概念 及 典型 应 用 场景 ,并 介绍 了 聚 类 分 析 技 术 的 基本 类 型 , 包 
括 划 分 法 ,密度 法 ,层次 法 ,网 格 法 和 模型 法 。 其 次 介绍 了 聚 类 数据 的 基本 模型 ,在 此 基础 上 
介绍 聚 类 的 依据 一 一 两 个 数据 对 象 的 相似 度量 ,包括 基于 距离 的 相似 度 计算 和 基于 相似 系 
数 的 相似 度 计 算 。 接 着 介绍 了 一 些 具 有 代表 性 的 聚 类 算法 ,包括 : 基于 划分 法 的 k 均值 算 
法 、k-medoids 算法 ,基于 层次 法 的 聚 类 算法 ,基于 密度 法 的 DBSCAN 算法 ,基于 网 格 法 的 
STING 算法 ,以 及 基于 密度 和 网 格 法 的 CLIQUE 算法 。 为 对 聚 类 结果 质量 进行 评估 ,本章 
还 给 出 了 簇 评估 的 基本 方法 。 最 后 比较 了 聚 类 分 析 和 分 类 分 析 的 异同 。 


习题 


1. 什么 是 聚 类 ? 简要 描述 如 下 聚 类 方法 : 划分 法 、 层 次 法 密度 法 、 网 格 法 和 模型 法 ， 
并 列举 每 类 方法 有 哪些 经 典 算法 。 

2. 聚 类 是 一 种 重要 的 数据 挖掘 方法 ,有 着 广泛 应 用 。 针 对 以 下 情况 给 出 一 个 应 用 例 
子 : 采用 聚 类 作为 主要 的 数据 挖掘 方法 的 应 用 ; @ 采 用 聚 类 作为 预 处 理工 具 , 为 其 他 数 
据 挖掘 任务 做 数据 准备 的 应 用 。 
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3. 简 述 k 均值 算法 和 k-medoids 算法 的 基本 步骤 ,并 比较 它们 的 优 缺 点 。 

4. 比较 k 均值 算法 与 DBSCAN 算法 的 优 缺 点 ,并 给 出 一 个 适合 使 用 DBSCAN 算法 的 
应 用 场景 。 

5. 简要 描述 如 何 计算 对 象 属性 为 : 间隔 尺度 、 名 义 尺 度 .二 元 参数 .序数 尺度 和 比例 尺 
度 时 ,两 个 对 象 间 的 相似 度 。 

6. 给 出 一 个 具体 的 聚 类 方法 如 何 被 综合 使 用 的 例子 ,例如 ,什么 情况 下 一 个 聚 类 算法 
被 用 作 另 一 个 算法 的 预 处 理 步 又 。 

7. 给 定 如 下 年 龄 变量 的 度量 值 : 20,15,30,52,23,32,37,41,19,30, 通 过 如 下 方法 进 
行 标准 化 : 计算 年 龄 的 平均 绝对 偏差 ,计算 前 4 个 值 的 z-score。 

8. 给 定 两 个 数据 对 象 ,分 别 表 示 为 (14, 27, 3, 18),(24, 19, 31, 15) ,计算 这 两 个 对 象 
之 间 的 欧 氏 距离 .曼哈顿 距离 和 明 氏 距离 (g 二 3)。 

9. 找 出 如 图 6-23 所 示 数 据 对 象 中 的 所 有 明显 分 离 的 簇 。 


(a) (b) (©) 
图 6-23 习题 9 图 


10. 采用 上 k 均值 算法 对 10 个 数据 对 象 (用 (z，y) 表 示 位 置 ) 进 行 聚 类 为 三 个 得 ,并 分 别 
采用 欧 氏 距离 .曼哈顿 距离 和 明 氏 距离 (q 王 3)。 假 设 选择 A ,As ,As 作为 初始 聚 类 中 心 ,请 
分 别 给 出 : 名 第 一 次 循环 后 三 个 得 的 聚 类 中 心 ; @ 最 后 聚 类 结果 。 

数据 对 象 : Ai (3,10),A:(5,16),A:(15,22),A,(4,7),As(11,23),As(6,4),A; (14， 
3) ,As(21,15),A,(4,7),Aio(10,16) 

11. 假设 你 将 在 一 个 给 定 的 区 域 分 配 一 些 自动 取款 机 以 满足 需求 。 住 宅 区 或 工作 区 可 
以 被 聚 类 ,使 得 每 个 簇 被 分 配 一 个 ATM。 但 这 个 聚 类 可 能 被 一 些 因素 所 约束 ,包括 可 能 影 
响 ATM 可 达 性 的 桥梁 、 河 流 和 公路 的 位 置 。 其 他 的 约束 可 能 包括 对 形成 一 个 区 域 的 每 个 
地 域 的 ATM 数目 的 限制 。 给 定 这 些 约束 ,怎样 修改 聚 类 算法 来 实现 基于 约束 的 聚 类 ? 

12. 使 用 表 6-7 中 相似 度 矩 阵 进行 单 链 和 全 链 层次 聚 类 。 绘 制 树 状 图 显示 结果 。 树 状 
图 应 当 清楚 地 显示 合并 层次 。 


表 6-7 相似 度 和 矩阵 


pi Pp: ps ps ps 
pi 1.00 
ps 0.10 1.00 
ps 0.41 0.64 1.00 
ps 0.55 0.47 0.44 1.00 
ps 0.35 0.98 0.85 0.76 1.00 


第 / 
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深度 学 习 


深度 学 习 是 机 器 学 习 领 域 一 个 新 的 研究 方向 ,近年 来 在 语音 识别 ,计算 机 视觉 等 多 类 应 
用 中 取得 突破 性 的 进展 。 其 动机 在 于 建立 模型 模拟 人 类 大 脑 的 神经 连接 结构 ,在 处 理 图 像 、 
声音 和 文本 这 些 信号 时 ,通过 多 个 变换 阶段 分 层 对 数据 特征 进行 描述 ,进而 给 出 数据 的 解 
释 。 以 图 像 数 据 为 例 , 灵 长 类 的 视觉 系统 中 对 这 类 信号 的 处 理 依 次 为 首先 检测 边缘 、 初 始 形 
状 , 然 后 再 逐步 形成 更 复杂 的 视觉 形状 。 同 样 地 ,深度 学 习 通过 组 合 低层 特征 形成 更 加 抽象 
的 高 层 表示 、 属 性 类 别 或 特征 ,给 出 数据 的 分 层 特征 表示 。 

深度 学 习 之 所 以 被 称 为 “深度 ”, 是 相对 支撑 向 量 机 (Support Vector Machine, SVM)、 
提升 方法 (Boosting) .最 大 焙 方 法 等 “ 浅 层 学 习 " 方 法 而 言 的 。 深 度 学 习 所 学 得 的 模型 中 , 非 
线性 操作 的 层级 数 更 多 。 浅 层 学 习 依靠 人 工 经 验 抽取 样本 特征 ,网 络 模型 学 习 后 获得 的 是 
没有 层次 结构 的 单 层 特征 ; 而 深度 学 习 通 过 对 原始 信号 进行 逐 层 特征 变换 ,将 样本 在 原 空 
间 的 特征 表示 变换 到 新 的 特征 空间 ,自动 地 学 习 得 到 层次 化 的 特征 表示 ,从 而 更 有 利于 分 类 
或 特征 的 可 视 化 。 深 度 学 习 理 论 的 另外 一 个 理论 动机 是 : 如 果 一 个 函数 可 用 A 层 结构 以 简 
洁 的 形式 表达 ,那么 用 & 一 1 层 的 结构 表达 则 可 能 需要 指数 级 数量 的 参数 (相对 于 输入 信 
号 ), 且 泛 化 能 力 不 足 。 

深度 学 习 的 概念 最 早 由 多 伦 多 大 学 的 G. E. Hinton 等 于 2006 年 提出 , 指 基于 样本 数据 
通过 一 定 的 训练 方法 得 到 包含 多 个 层级 的 深度 网 络 结构 的 机 器 学 习 过 程 。 传 统 的 神经 网 络 
随机 初始 化 网 络 中 的 权 值 ,导致 网 络 很 容易 收敛 到 局 部 最 小 值 ,为 解决 这 一 问题 ,Hinton 提 
出 使 用 无 监督 预 训练 方法 优化 网 络 权 值 的 初 值 ,再 进行 权 值 微调 的 方法 , 拉 开 了 深度 学 习 的 
序幕 。 
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7.1 深度 学 习 的 由 来 


7.1.1 深度 学 习 的 神经 学 启示 


尽管 人 类 每 时 每 刻 都 要 面临 着 大 量 的 感知 数据 , 却 总 能 以 一 种 灵巧 方式 获取 值得 注意 
的 重要 信息 。 模 仿 人 脑 那样 高 效 准确 地 表示 信息 一 直 是 人 工 智 能 研究 领域 的 核心 挑战 。 神 
经 科学 研究 人 员 利 用 解剖 学 知识 发 现 哺乳 类 动物 大 脑 表示 信息 的 方式 : 通过 感官 信号 从 视 
网 膜 传递 到 前 额 大 脑 皮质 再 到 运动 神经 的 时 间 ,推断 出 大 脑 皮质 并 未 直接 地 对 数据 进行 特 
征 提取 处 理 , 而 是 使 接收 到 的 刺激 信号 通过 一 个 复杂 的 层 状 网 络 模型 ,获取 观测 数据 展现 的 
规则 。 也 就 是 说 ,人 脑 并 不 是 直接 根据 外 部 世界 在 视网膜 上 投影 ,而 是 根据 经 聚集 和 分 解 过 
程 处 理 后 的 信息 来 识别 物体 。 因 此 视 皮层 的 功能 是 对 感知 信号 进行 特征 提取 和 计算 ,而 不 
仅仅 是 简单 地 重 现 视网膜 的 图 像 。 人 类 感知 系统 这 种 明确 的 层次 结构 极 大 地 降低 了 视觉 系 
统 处 理 的 数据 量 , 并 保留 了 物体 有 用 的 结构 信息 。 对 于 要 提取 具有 潜在 复杂 结构 规则 的 自 
然 图 像 .视频 .语音 和 音乐 等 结构 丰富 数据 ,深度 学 习 能 够 获取 其 本 质 特 征 。 

受 大 脑 结 构 分 层次 启发 ,神经 网 络 研究 人 员 一 直 致 力 于 多 层 神 经 网 络 的 研究 。BP 算法 
是 经 典 的 梯度 下 降 并 采用 随机 选 定 初始 值 的 多 层 网 络 训练 算法 ,但 因 输 入 与 输出 间 非 线性 
映射 使 网 络 误差 函数 或 能 量 函 数 空间 是 一 个 含 多 个 极 小 点 的 非 线 性 空间 ,搜索 方向 仅 是 使 
网 络 误 差 或 能 量 减 小 的 方向 ,因而 经 常 收敛 到 局 部 最 小 ,并 随 网 络 层 数 增加 情况 更 加 严重 。 
理论 和 实验 表明 ,BP 算法 不 适 于 训练 具有 多 隐 层 单元 的 深度 结构 。 此 原因 在 一 定 程度 上 阻 
碍 了 深度 学 习 的 发 展 ,并 将 大 多 数 机 器 学 习 和 信号 处 理 研究 从 神经 网 络 转移 到 相对 较 容易 
训练 的 浅 层 学 习 结构 。 

传统 机 器 学 习 和 信号 处 理 技术 探索 仅 含 单 层 非 线性 变换 的 浅 层 学 习 结 构 。 浅 层 模 型 的 
一 个 共性 是 仅 含 单个 将 原始 输入 信号 转换 到 特定 问题 空间 特征 的 简单 结构 。 典 型 的 浅 层 学 
习 结 构 包 括 传统 隐 马 尔 可 夫 模 型 (HMM) 、 条 件 随机 场 (CRFs)、 最 大 炉 模 型 (MaxEnt) 、 支 
持 向 量 机 (SVM) , 核 回 归 及 仅 含 单 隐 层 的 多 层 感知 器 (MLP) 等 。 


7.1.2 浅 层 结构 函数 表示 能 力 的 局 限 性 


深度 学 习 与 浅 层 学 习 相 对 。 现 在 很 多 的 学 习 方 法 都 是 浅 层 结构 算法 ,它们 存在 一 定 的 
局 限 性 ,比如 在 样本 有 限 的 情况 下 表示 复杂 函数 的 能 力 有 限 ,针对 复杂 的 分 类 问题 其 泛 化 能 
力 受 到 一 定制 约 。 而 深度 学 习 可 通过 学 习 一 种 深层 非 线 性 网 络 结构 ,实现 复杂 函数 晕 近 , 表 
征 输入 数据 分 布 式 表示 ,并且 能 在 样本 集 很 少 的 情况 下 去 学 习 数 据 集 的 本 质 特征 。 例 如 ,多 


项 式 [[ > ouzi 计算 方式 不 同 , 计 算 复杂 度 会 有 很 大 的 不 同 。 如 果 计算 和 的 积 ,计算 复杂 度 


i=1 j=1 


为 Olmn); 如 果 计 算 积 的 和 ,计算 复杂 度 为 O(n”")。 参 数 多 的 结构 不 仅 训练 复杂 ,训练 时 间 
长 ,而 且 泛 化 性 也 很 差 , 还 容易 产生 过 拟 合 问题 。 虽 然 浅 层 学 习 的 应 用 也 很 广泛 ,但 它 只 对 
简单 的 计算 才 有 效 ,并 不 能 达到 人 脑 的 反应 效果 ,这 就 需要 深度 的 机 器 学 习 。 这 些 都 表明 浅 
层 学 习 网 络 有 很 大 的 局 限 性 ,激发 了 研究 人 员 对 深度 网 络 建 模 的 研究 。 


7 章 深度 学 习 
第 7 章 深度 学 全 


深度 机 器 学 习 是 数据 分 布 式 表示 的 必然 结果 。 有 很 多 学 习 结 构 的 学 习 算 法 得 到 的 学 习 
器 是 局 部 估计 算 子 ,例如 ,由 核 方 法 构造 的 学 习 器 ,f(x) 一 0 十 Dak zsx) 是 由 对 模板 的 


匹配 度 加 权 构 成 的 。 对 于 这 样 的 问题 ,通常 有 合理 的 假设 ,但 当 目 标 函 数 非常 复杂 时 ,由 于 
需要 利用 参数 进行 描述 的 区 域 数目 也 是 巨大 的 ,因此 这 样 的 模型 泛 化 能 力 很 差 。 在 机 器 学 
习 和 神经 网 络 研究 中 分 布 式 表示 可 以 处 理 维 数 灾难 和 局 部 泛 化 限制 。 分 布 式 表示 不 仅 可 以 
很 好 地 描述 概念 间 的 相似 性 ,而 且 合 适 的 分 布 式 表示 在 有 限 的 数据 下 能 体现 出 更 好 的 泛 化 
性 能 。 理 解 和 处 理 接 收 到 的 信息 是 人 类 认 知 活动 的 重要 环节 ,由 于 这 些 信息 的 结构 一 般 都 
很 复杂 ,因此 构造 深度 的 学 习 机 器 去 实现 一 些 人 类 的 认 知 活动 是 很 有 必要 的 。 


7.1.3 特征 提取 的 需要 


机 器 学 习 通过 算法 ,让 机 器 可 以 从 外 界 输入 的 大 量 数据 中 学 习 到 规律 ,从 而 进行 识别 判 
断 。 机 器 学 习 在 解决 图 像 识别 .语音 识别 .自然 语言 理解 等 问题 时 的 大 致 流程 如 图 7-1 
所 示 。 


分 类 器 设计 
数据 获取 =| 预 处 理 -| 二 a 
分 类 决策 


图 7-1 模式 识别 流程 图 


首先 通过 传感器 来 获得 数据 ,然后 经 过 预 处 理 、 特 征 提取 特征 选择 ,再 到 推理 ,预测 和 
识别 。 良 好 的 特征 表达 影响 着 最 终 算法 的 准确 性 ,而 且 系 统 主要 的 计算 和 测试 工作 都 在 这 
一 环节 。 这 个 环节 一 般 都 是 人 工 完 成 的 , 靠 人 工 提取 特征 是 一 种 非常 费力 的 方法 ,不 能 保证 
选取 的 质量 ,而 且 它 的 调节 需要 大 量 的 时 间 。 然 而 深度 学 习 能 自动 地 学 习 一 些 特征 ,不 需要 
人 参与 特征 的 选取 过 程 。 

深度 学 习 是 一 个 多 层次 的 学 习 , 如 图 7-2 所 示 , 用 较 少 的 隐 层 是 不 可 能 达到 与 人 脑 类 


输入 层 


图 7-2 含 多 个 隐 层 的 深度 学 习 示 意图 
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似 的 效果 的 。 这 需要 多 层 的 学 习 , 逐 层 学 习 并 把 学 习 的 知识 传递 给 下 一 层 , 通 过 这 种 方式 ， 
就 可 以 实现 对 输入 信息 进行 分 级 表达 。 深 度 学 习 的 实质 就 是 通过 建立 \ 模 拟人 脑 的 分 层 结 
构 ,对 外 部 输入 的 声音 .图像 .文本 等 数据 进行 从 低级 到 高 级 的 特征 提取 ,从 而 能 够 解释 外 部 
数据 。 与 传统 学 习 结 构 相 比 ,深度 学 习 更 加 强调 模型 结构 的 深度 ,通常 含有 多 层 的 隐 层 结 
点 ,而 且 在 深度 学 习 中 ,特征 学 习 至 关 重要 ,通过 特征 的 逐 层 变换 完成 最 后 的 预测 和 识别 。 


7.2 深度 学 习 的 经 典 方法 


7.2.1 深度 学 习 表 示 模 型 和 网 络 结构 


深度 学 习 方法 试图 找到 数据 的 内 部 结构 ,发现 变量 之 间 的 真正 关系 形式 。 大 量 研究 表 
明 ,数据 表示 的 方式 对 训练 学 习 的 成 功 产生 很 大 的 影响 ,好 的 表示 能 够 消除 输入 数据 中 与 学 
习 任 务 无 关 因素 的 改变 对 学 习性 能 的 影响 ,同时 保留 对 学 习 任 务 有 用 的 信息 。 

深度 学 习 中 数据 的 表示 有 局 部 表示 、 分 布 表示 和 稀疏 分 布 表示 三 种 表示 形式 。 学 习 输 
人 层 、 隐 层 和 输出 层 的 单元 均 取 值 0 或 1。 举 个 简单 的 例子 ,整数 i€ (1,2,…,N} 的 局 部 表 
示 为 向 量 r( 让 ,该 向 量 有 NN 位 ,由 1 个 1 和 NN 一 1 个 0 组 成 , 即 x;(i) 二 1;-;。 分 布 表 示 中 的 
输入 模式 由 一 组 特征 表示 ,这 些 特征 可 能 存在 相互 包含 关系 ,并 且 在 统计 意义 上 相互 独立 。 
对 于 例子 中 相同 整数 的 分 布 表示 有 log: N 位 的 向 量 , 这 种 表示 更 为 紧凑 ,在 解决 降 维 和 局 部 
泛 化 限制 方面 起 到 帮助 作用 。 稀 下 分 布 表示 介 于 完全 局 部 表示 和 非 稀 玻 分 布 表示 之 间 , 稀 
玻 性 的 意思 为 表示 向 量 中 的 许多 单元 取 值 为 0。 对 于 特定 的 任务 需要 选择 合适 的 表示 形式 
才能 对 学 习性 能 起 到 改进 的 作用 。 当 表示 一 个 特定 的 输入 分 布 时 ,一些 结构 是 不 可 能 的 , 因 
为 它们 不 相 容 。 例 如 在 语言 建 模 中 ,运用 局 部 表示 可 以 直接 用 词汇 表 中 的 索引 编码 词 的 特 
性 ,而 在 句法 特征 ,形态 学 特征 和 语义 特征 提取 中 ,运用 分 布 表 示 可 以 通过 连接 一 个 向 量 指 
示 器 来 表示 一 个 词 。 分 布 表示 由 于 其 具有 的 优点 ,常常 用 于 深度 学 习 中 表示 数据 的 结构 。 
由 于 聚 类 簇 之 间 在 本 质 上 互相 不 存在 包含 关系 ,因此 聚 类 算法 不 专门 建立 分 布 表 示 , 而 独立 
成 分 分 析 (Independent Component Analysis, ICA) 和 主 成 分 分 析 (Principal Component 
Analysis,PCA) 通 常用 来 构造 数据 的 分 布 表 示 。 

典型 的 深度 学 习 算 法 有 自动 编码 器 (Auto Encoder)、 受 限 玻 尔 兹 曼 机 (Restricted 
Boltzmann Machine,RBM) 和 卷 积 神经 网 络 (Convolutional Neural Networks) 等 ,下 面 分 别 
对 这 些 方法 进行 描述 。 


7.2.2 自动 编码 器 


深度 学 习 最 简单 的 一 种 方法 是 利用 人 工 神经 网 络 的 特点 ,人 工 神 经 网 络 (ANN) 本 身 就 
是 具有 层次 结构 的 系统 ,如 果 给 定 一 个 神经 网 络 , 我 们 假设 其 输出 与 输入 是 相同 的 ,然后 训 
练 调整 其 参数 ,得 到 每 一 层 中 的 权重 。 自 然 地 ,我 们 就 得 到 了 输入 工 的 几 种 不 同 表示 (每 一 
层 代 表 一 种 表示 ) ,这 些 表示 就 是 特征 。 自 动 编码 器 就 是 一 种 尽 可 能 复 现 输入 信号 的 神经 网 
络 。 为 了 实现 这 种 复 现 ,自动 编码 器 就 必须 捕捉 可 以 代表 输入 数据 的 最 重要 的 因素 ,就 像 
PCA 那样 ,找到 可 以 代表 原 信 息 的 主要 成 分 。 自 动 编码 器 的 具体 过 程 描述 如 下 。 


1. 给 定 无 标签 数据 ,用 非 监 督 方法 学 习 特 征 

如 图 7-3(a) 所 示 的 神经 网 络 中 ,输入 的 样本 都 是 有 标签 的 , 即 ( 输 入 ,目标 ) ,这 样 就 可 以 
根据 当前 输出 和 目标 (标签 ) 之 间 的 差 来 改变 各 层 的 参数 ,直到 收敛。 但 是 如 果 只 有 无 标签 
数据 , 即 如 图 7-3(b) 所 示 ,那么 这 个 误差 如 何 得 到 ? 


输入 预测 输入 7 预测 
) 
目标 > ? 
人 输入 和 目标 给 定 的 神经 网 络 (b) 输入 给 定 ， 目 标示 定 的 神经 网 络 


图 7-3 神经 网 络 训 练 示意 


如 图 7-4 所 示 ,我 们 将 输入 的 信息 输入 到 一 个 编码 器 中 ,就 会 得 到 一 个 编码 ,这 个 编码 
也 是 输入 的 一 种 表示 。 解 码 器 将 编码 解码 成 一 个 信息 并 输出 ,如 果 输 出 的 信息 和 输入 的 信 
息 比较 像 , 那 就 说 明 编 码 是 正确 的 。 因 此 通过 调整 编码 器 和 解码 器 的 参数 ,使 得 重 构 误 差 最 
小 ,就 可 以 得 到 输入 信息 的 第 一 个 编码 表示 。 因 为 是 无 标签 数据 ,因此 误差 的 来 源 就 是 直接 
重 构 后 与 原 输入 相 比 得 到 的 。 


EN | 代码 [种 亲 | 重 检 


图 7-4 解码 编码 过 程 


2. 通过 编码 器 产生 特征 .并 进行 逐 层 训练 

上 述 得 到 的 是 第 一 层 的 编码 ,我 们 将 第 一 层 输 出 的 编码 作为 第 二 层 的 输入 信息 ,同样 最 
小 化 重 构 误差 ,就 会 得 到 第 二 层 的 参数 ,并 且 得 到 第 二 层 输入 的 编码 ,也 就 是 原 输 入 信息 的 
第 二 个 表达 。 其 他 层 按照 同样 的 方法 进行 即 可 (训练 当前 层 时 ,前 面 层 的 参数 都 是 固定 的 ， 
并 且 不 需要 这 些 层 的 解码 器 ) 。 

3， 有 监督 微调 

经 过 上 述 两 个 步骤 ,就 可 以 得 到 多 层 编码 器 ,每 一 层 都 能 得 到 原始 输入 的 不 同 的 表达 。 

但 自动 编码 器 目前 还 不 能 用 来 分 类 数据 ,因为 它 还 没有 学 习 如 何 去 连 接 一 个 输入 和 一 
个 类 。 它 只 是 学 会 了 如 何 去 重 构 或 者 复 现 它 的 输入 而 已 。 或 者 说 , 它 只 是 学 习 获 得 了 一 个 
可 以 良好 代表 输入 的 特征 ,这 个 特征 可 以 最 大 程度 上 代表 原 输入 信号 。 为 了 实现 分 类 ,可 以 
在 自动 编码 器 的 最 顶端 编码 层 添加 一 个 分 类 器 (例如 罗杰斯 特 回归 、SVM 等 ) ,然后 通过 标 
准 的 多 层 神 经 网 络 的 监督 训练 方法 (梯度 下 降 法 ) 去 训练 。 
因此 ,需要 将 最 后 一 层 的 特征 编码 输入 到 最 后 的 分 类 器 ,通过 有 标签 样本 及 监督 学 习 进 
行 微调 。 

一 旦 监督 训练 完成 ,该 网 络 就 可 以 用 来 分 类 了 。 神 经 网 络 的 最 顶层 可 以 作为 一 个 线性 
分 类 器 ,我 们 可 以 用 一 个 更 好 性 能 的 分 类 器 去 取代 它 。 
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在 研究 中 可 以 发 现 ,如 果 在 原 有 的 特征 中 加 入 这 些 自动 学 习 得 到 的 特征 可 以 大 大 提高 
精确 度 ,甚至 在 分 类 问题 中 比 目 前 最 好 的 分 类 算法 效果 还 要 好 。 


7.2.3 受 限 玻 尔 效 曼 机 


在 诸多 人 工 神 经 网 络 模型 中 , 玻 尔 效 曼 机 (Boltzmann Machine, BM) 是 Hinton 和 
Sejnowski 于 1986 年 提出 的 一 种 根植 于 统计 力学 的 随机 神经 网 络 。 这 种 网 络 中 的 神经 元 是 
随机 神经 元 ,其 输出 只 有 两 种 状态 (未 激活 .激活 ) ,一 般 用 二 进 制 的 0 和 1 表示 ,状态 的 取 值 
根据 概率 法 则 决定 。 从 功能 上 讲 ,BM 是 由 随机 神经 元 全 连接 组 成 的 反馈 神经 网 络 , 且 对 称 
连接 ,无 自 反馈 ,包含 一 个 可 见 层 和 一 个 隐 层 的 BM 模型 ,如 图 7-5(a) 所 示 。 

BM 具有 强大 的 无 监督 学 习 能 力 ,能 学 习 数 据 中 复杂 的 规则 。 但 是 ,拥有 这 种 学 习 能 力 
的 代价 是 其 训练 (学 习 ) 过 程 耗 时 。 此 外 ,BM 所 表示 的 分 布 不 仅 无 法 确切 计算 ,得 到 该 分 布 
的 随机 样本 也 很 困难 。 于 是 , Smolensky 引入 了 一 种 限制 的 玻 尔 效 曼 机 (Restricted 
Boltzmann Machine, RBM)。RBM 具有 一 个 可 见 层 和 一 个 隐 层 , 层 内 无 连接 ,其 结构 如 
图 7-5(b) 所 示 。RBM 具有 很 好 的 性 质 : 在 给 定 可 见 层 单元 状态 时 ,各 隐 单 元 的 激活 条 件 独 
立 ; 反之 ,在 给 定 隐 单 元 状态 时 ,可 见 层 单元 的 激活 条 件 独 立 。 这 样 一 来 ,尽管 RBM 所 表示 
的 分 布 仍 无 法 有 效 计算 ,但 通过 Gibbs 采样 可 以 得 到 RBM 所 表示 分 布 的 随机 样本 。 此 外 ， 
Roux 和 Bengio 从 理论 上 证 明 , 只 要 隐 单 元 足够 多 ,RBM 能 够 拟 合 任意 离散 分 布 。 


泡 层 隐 层 


可 见 层 可 见 层 
(a) BM 模 型 的 结构 (b) RBM 模 型 的 结构 
图 7-5 BM 和 RBM 模型 的 结构 比较 
RBM 也 可 以 被 视 为 一 个 无 向 图 模型 ,如 图 7-6 所 示 。w 为 可 见 层 ,表示 观测 数据 ; h 为 
隐 层 ,可 视 为 一 些 特征 提取 器 ; W 为 两 层 之 间 的 连接 权重 。Welling 指出 ,RBM 中 的 隐 单 
元 和 可 见 单元 可 以 为 任意 的 指数 族 单 元 ( 即 给 定 隐 单 元 (可 见 单元 ) ,可 见 单元 ( 隐 单 元 ) 的 分 布 


可 以 为 任意 的 指数 族 分 布 ), 如 softmax 单元 、 高 斯 单元 、 泊 松 单元 等 。 这 里 ,为 了 讨论 方便 起 
见 ,假设 所 有 的 可 见 单元 和 隐 单 元 均 为 二 值 变量 , 即 对 任意 的 i,j,w€10,1),h;€10,1}。 


隐 层 有 


可 见 层 v 


图 7-6 RBM 的 图 模型 表示 . 层 内 单元 之 间 无 连接 
如 果 一 个 RBM 及 个 可 见 单元 和 mm 个 隐 单 元 ,用 向 量 v 和 有 分别 表 示 可 见 单 元 和 隐 
单元 的 状态 。 其 中 ,vw 表示 第 i 个 可 见 单元 的 状态 ,h; 表示 第 j 个 隐 单 元 的 状态 。 那 么 ,对 
于 一 组 给 定 的 状态 (v, h),RBM 作为 一 个 系统 所 具备 的 能 量 定 义 为 


E(v,h|0) 一 = Pew — Do, — (下 


i=1 j=1 


式 (7-1) 中 ,0== {Wi; ,ai,b;) 是 RBM 的 参数 ， 它们 均 为 实数 。 其 中 ,Wi 表示 可 见 单元 i 与 隐 
单元 j 之 间 的 连接 权重 ,a; 表示 可 见 单元 i 的 偏 置 ,b; 表示 隐 单 元 ;7 的 偏 置 。 当 参数 确定 
时 ,基于 该 能 量 函 数 , 可 以 得 到 (wv, h) 的 联合 概率 分 布 .: 


P(v.h|0)= Ss 2(0) = Se 他 < 动 
其 中 ,200) 为 归 一 化 因子 (也 称 为 配 分 函数 )。 
对 于 一 个 实际 问题 ,我 们 最 关心 的 是 由 RBM 所 定义 的 关于 观测 数据 2 的 分 布 PCw19)， 


即 联 合 概 率 分 布 P(v,h19) 的 边际 分 布 ,也 称 为 似 然 函数 : 
P(v10) = Zn (7-3) 


为 了 确定 该 分 布 ,需要 计算 归 一 化 因子 Z(0) ,这 需要 2"*" 次 计算 。 因 此 ,即使 通过 训练 可 以 
得 到 模型 的 参数 Wi .a; 和 0b; ,仍旧 无 法 有 效 地 计算 由 这 些 参数 所 确定 的 分 布 。 

但 是 ,由 RBM 的 特殊 结构 ( 即 层 间 有 连接 , 层 内 无 连接 ) 可 知 : 当 给 定 可 见 单元 的 状态 
时 ,各 隐 单 元 的 激活 状态 之 间 是 条 件 独 立 的 。 此 时 ,第 j 个 隐 单 元 的 激活 概率 为 


P(h;=1|wv,0)= 人 十 Pow, | (7-4) 


其 中 ,oc(x)= Tac 一 为 sigmoid 激活 函数 。 


由 于 RBM 的 结构 是 对 称 的 , 当 给 定 隐 单元 的 状态 时 ,各 可 见 单 元 的 激活 状态 之 间 也 是 
条 件 独 立 的 , 即 第 i 个 可 见 单元 的 激活 概率 为 


P(uw = 11|h,0) = de, 十 Pw,] (7-5) 
了 


7.2.4 卷 积 神经 网 络 


20 世纪 60 年 代 ,Hubel 和 Wiesel 通过 对 猫 视觉 皮层 细胞 的 研究 ,提出 了 感受 野 的 概 
念 。 受 此 启发 ,Fukushima 提出 神经 认 知 机 ,可 看 作 是 卷 积 神经 网 络 (Convolutional Neural 
Networks，CNNs) 的 第 一 个 实现 网 络 , 也 是 感受 野 概 念 在 人 工 神经 网 络 领域 的 首次 应 用 。 
随后 LeCun 等 人 设计 并 采用 基于 误差 梯度 的 算法 训练 了 卷 积 神经 网 络 ,并 且 其 在 一 些 模式 
识别 任务 中 展现 出 了 相对 于 当时 其 他 方法 的 领先 性 能 。 现 代 生 理学 关于 视觉 系统 的 理解 也 
与 CNNs 中 的 图 像 处 理 过 程 相 一 致 ,这 为 CNNs 在 图 像 识别 中 的 应 用 奠定 了 基础 。CNNs 
是 第 一 个 真正 成 功 地 采用 多 层 层次 结构 网 络 的 具有 和 鲁 棒 性 的 深度 学 习 方 法 ,通过 研究 数据 
在 空间 上 的 关联 性 ,来 减少 训练 参数 的 数量 。 目 前 来 看 ,在 图 像 识别 领域 ,CNNs 已 经 成 为 
一 种 高 效 的 识别 方法 。 

CNNs 是 一 个 多 层 的 神经 网 络 , 如 图 7-7 所 示 , 每 层 由 多 个 二 维 平 面 组 成 ,每 个 平面 又 
由 多 个 独立 的 神经 元 组 成 。 上 一 层 中 的 一 组 局 部 单元 作为 下 一 层 邻 近 单 元 的 输入 ,这 种 局 
部 连接 观点 最 早起 源 于 感知 器 。 外 界 输入 的 图 像 通过 可 训练 的 滤波 器 加 偏 置 进行 卷 积 , 卷 
积 后 在 Cl 层 会 产生 三 个 特征 映射 图 ; 然后 特征 映射 图 中 每 组 像素 分 别 进行 求 和 加 偏 置 ,再 
通过 Sigmoid 函数 得 到 S2 层 的 特征 映射 图 ; 这 些 映射 图 再 通过 滤波 器 得 到 C3 层 ; C3 与 
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S2 类 似 , 再 产生 S4; 最 后 ,这 些 像素 值 被 光栅 化 ,并 且 连 接 成 向 量 输入 到 神经 网 络 , 从 而 便 
得 到 了 输出 。 一 般 地 ,C 层 为 特征 提取 层 ,每 个 神经 元 的 输入 与 前 一 层 的 局 部 感受 野 相 连 ， 
并 提取 该 局 部 特征 ,根据 局 部 特征 来 确定 它 与 其 他 特征 空间 的 位 置 关 系 ; S 层 是 特征 映射 
层 , 特 征 映射 具有 位 移 不 变性 ,每 个 特征 映射 为 一 个 平面 ,平面 上 所 有 神经 元 的 权 值 是 相等 
的 ,因而 减少 了 网 络 自由 参数 的 个 数 ,降低 了 网 络 参数 选择 的 复杂 度 。 每 一 个 特征 提取 层 
〈C 层 ) 都 会 跟着 一 个 用 于 求 局 部 平均 及 二 次 提取 的 计算 层 (S 层 ) ,这 便 构成 了 两 次 特征 提 
取 的 结构 ,从 而 在 对 输入 样本 识别 时 ,网 络 有 很 好 的 畸变 容忍 能 力 。 对 于 每 一 个 神经 元 ,都 
定义 了 对 应 的 接受 域 , 其 只 接受 从 自己 接受 域 传 来 的 信号 。 多 个 映射 层 组 合 起 来 可 以 获得 
层 之 间 的 关系 和 空域 上 的 信息 ,从 而 方便 进行 图 像 处 理 。 


图 像 之 | NN 


上 卢 上 =-[ 过 | 


图 7-7 卷 积 神经 网 络 结构 示意 图 


CNNs 是 人 工 神经 网 络 的 一 种 ,其 适应 性 强 , 善 于 挖掘 数据 局 部 特征 。 它 的 权 值 共享 网 
络 结构 使 之 更 类 似 于 生物 神经 网 络 ,降低 了 网 络 模型 的 复杂 度 ,减少 了 权 值 的 数量 ,使 得 
CNNs 在 模式 识别 中 的 各 个 领域 得 到 应 用 并 取得 了 很 好 的 结果 。CNNs 通过 结合 局 部 感知 
区 域 .共享 权重 、 空 间或 时 间 上 的 降 采 样 来 充分 利用 数据 本 身 包含 的 局 部 性 等 特征 ,优化 网 
络 结构 ,并 且 保 证 一 定 程度 上 的 位 移 的 不 变性 。 由 Lecun 提出 的 LeNet 模型 在 应 用 到 各 种 
不 同 的 图 像 识别 任务 时 都 取得 了 不 错 的 效果 ,被 认为 是 通用 图 像 识 别 系统 的 代表 之 一 。 通 
过 这 些 年 的 研究 工作 ,CNNs 的 应 用 越 来 越 多 ,如 人 脸 检 测 ,文档 分 析 、 语 音 检测 .车 牌 识别 
等 方面 。2006 年 ,Kussul 等 人 提出 的 采用 排列 编码 技术 的 神经 网 络 在 人 脸 识 别 、 手 写 数字 
识别 和 小 物体 识别 等 识别 任务 上 都 取得 了 与 一 些 专 用 分 类 系统 相当 的 性 能 表现 ; 并 且 在 
2012 年 ,研究 人 员 把 视频 数据 里 连续 的 帧 当 作 卷 积 神经 网 络 的 输入 数据 ,这 样 就 可 以 引入 
时 间 维 度 上 的 数据 ,从 而 识别 人 体 的 动作 。 


7.3 深度 学 习 的 应 用 

深度 学 习 目 前 在 很 多 领域 都 优 于 过 去 的 方法 ,下 面 根据 所 处 理 数 据 类 型 的 不 同 , 对 深度 
学 习 的 应 用 进行 介绍 。 

7.3.1 深度 学 习 在 语音 识别 .合成 及 机 器 翻译 中 的 应 用 


微软 研究 人 员 使 用 深度 信念 网 络 对 数 以 千 计 的 Senones( 一 种 比 音素 小 很 多 的 建 模 单 
元 ) 直 接 建 模 ,提出 了 第 一 个 成 功 应 用 于 大 词汇 量 语音 识别 系统 的 上 下 文 相关 的 深层 神经 网 
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络 一 一 隐 马 尔 可 夫 混合 模型 (CD-DNN-HMM) , 比 之 前 最 领先 的 基于 常规 CD-GMM-HMM 
的 大 词汇 量 语音 识别 系统 相对 误差 率 减少 16% 以 上 。 

随后 又 在 含有 300 小 时 语音 训练 数据 的 Switchboard 标准 数据 集 上 对 CD-DNN-HMM 
模型 进行 评测 。 基 准 测试 字 词 错误 率 为 18. 5% ,与 之 前 最 领先 的 常规 系统 相 比 ,相对 错误 
率 减 少 了 33%。 

K. Cho 等 提出 一 种 基于 循环 神经 网 络 (Recurrent Neural Network,RNN) 的 向 量化 定 
长 表示 模型 (RNNenc 模型 ) ,应 用 于 机 器 翻译 。 该 模型 包含 两 个 RNN ,一 个 RNN 用 于 将 
一 组 源 语言 符号 序列 编码 为 一 组 固定 长 度 的 向 量 , 另 一 个 RNN 将 该 向 量 解码 为 一 组 目标 
语言 的 符号 序列 。 

在 该 模型 的 基础 上 ,D. Bahdanau 等 提出 了 RNNsearch 的 模型 。 该 模型 在 翻译 每 个 单 
词 时 ,根据 该 单词 在 源 文本 中 最 相关 信息 的 位 置 以 及 已 翻译 出 的 其 他 单词 ,预测 对 应 于 该 单 
词 的 目标 单词 。 该 模型 包含 一 个 双向 RNN 作为 编码 器 ,以 及 一 个 用 于 单词 翻译 的 解码 器 。 
在 进行 目标 单词 位 置 预测 时 ,使 用 一 个 多 层 感知 机 模型 进行 位 置 对 齐 。 采 用 BLEU 评价 指 
标 ,RNNsearch 模型 在 ACL2014 机 器 翻译 研讨 会 (ACL WMT 2014) 提 供 的 英 /法 双语 并 行 
语料库 上 的 翻译 结果 评分 均 高 于 RNNenc 模型 的 评分 , 略 低 于 传统 的 基于 短语 的 翻译 系统 
Moses (本 身 包 含 具有 4. 18 亿 个 单词 的 多 语言 语料库 ) 。 另 外 ,在 剔除 包含 未 知 词汇 语句 的 
测试 预料 库 上 ,RNNsearch 的 评分 甚至 超过 了 Moses 。 


7.3.2 深度 学 习 在 图 像 分 类 及 识别 中 的 应 用 


1. 深度 学 习 在 大 规模 图 像 数据 集中 的 应 用 

A. Krizhevsky 等 首次 将 卷 积 神经 网 络 应 用 于 ImageNet 大 规模 视觉 识别 挑战 赛 
(ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中 ,所 训练 的 深度 卷 积 神经 
网 络 在 ILSVRC-2012 挑战 赛 中 ,取得 了 图 像 分 类 和 目标 定位 任务 的 第 一 。 其 中 ,图 像 分 类 
任务 中 ,前 5 选项 错误 率 为 15.3%, 远 低 于 第 2 名 的 26.2% 的 错误 率 ; 在 目标 定位 任务 中 ， 
前 5 选项 错误 率 34% ,也 远 低 于 第 2 名 的 50%。 

在 ILSVRC-2013 比赛 中 ,M. D. Zeiler 等 采用 卷 积 神经 网 络 的 方法 ,其 前 5 选项 错误 率 
为 11.7% ,如 果 采 用 ILSVRC-2011 数据 进行 预 训练 ,错误 率 则 降低 到 11. 2%。 在 目标 定位 
任务 中 ,P. Sermanet 等 采用 卷 积 神经 网 络 结合 多 尺度 滑动 窗口 的 方法 ,可 同时 进行 图 像 分 
类 定位 和 检测 ,是 比赛 中 唯一 一 个 同时 参加 所 有 任务 的 队伍 。 多 目标 检测 任务 中 ,获胜 队 
伍 的 方法 在 特征 提取 阶段 没有 使 用 深度 学 习 模 型 ,只 在 分 类 时 采用 卷 积 网 络 分 类 器 进行 重 
打分 

在 ILSVRC-2014 比赛 中 ,几乎 所 有 的 参赛 队伍 都 采用 了 卷 积 神经 网 络 及 其 变形 方法 。 
其 中 ,GoogLeNet 小 组 采用 卷 积 神经 网 络 结合 Hebbian 理论 提出 的 多 尺度 的 模型 ,以 6.7% 
的 分 类 错误 ,取得 图 形 分 类 “指定 数据 "组 的 第 一 名 ; CASIAWS 小 组 采用 弱 监 督 定位 和 卷 
积 神经 网 络 结合 的 方法 ,取得 图 形 分 类 “额外 数据 ”组 的 第 一 名 ,其 分 类 错误 率 为 11%。 

在 目标 定位 任务 中 ,VGG 小 组 在 深度 学 习 框 架 Caffe 的 基础 上 ,采用 三 个 结构 不 同 的 
卷 积 神经 网 络 进行 平均 评估 ,以 26% 的 定位 错误 率 取 得 “指定 数据 ”组 的 第 一 名 ; Adobe 组 
选用 额外 的 2000 类 ImageNet 数据 训练 分 类 器 ,采用 卷 积 神经 网 络 架构 进行 分 类 和 定位 ， 
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以 30% 的 错误 率 , 取 得 了 “额外 数据 ”组 的 第 一 名 。 

在 多 目标 检测 任务 中 ,NUS 小 组 采用 改进 的 卷 积 神经 网 络 一 一 网 中 网 (Network In 
Network,NIN) 与 多 种 其 他 方法 融合 的 模型 ,以 37% 的 平均 准确 率 (mean Average 
Precision,mAP) 取 得 “提供 数据 ”组 的 第 一 名 ; GoogLeNet 以 44% 的 平均 准确 率 取 得 “额外 
数据 ?组 的 第 一 名 。 

从 深度 学 习 首 次 应 用 于 ILSVRC 挑战 赛 并 取得 突出 的 成 绩 ,到 2014 年 挑战 赛 中 几乎 
所 有 参赛 队伍 都 采用 深度 学 习 方法 ,并 将 分 类 识 错 率 降低 到 6.7% ,可 看 出 深度 学 习 方法 相 
比 于 传统 的 手工 提取 特征 的 方法 在 图 像 识 别 领域 具有 巨大 优势 。 

2. 深度 学 习 在 人 脸 识 别 中 的 应 用 

基于 卷 积 神经 网 络 的 学 习 方 法 ,香港 中 文大 学 的 DeepID 项 目 以 及 Facebook 的 
DeepFace 项 目 在 户外 人 脸 识别 (Labeled Faces in the Wild,LFW) 数 据 库 上 的 人 脸 识 别 正 
确 率 分 别 达 97. 45% 和 97.35%, 只 比 人 类 识别 97. 5% 的 正确 率 略 低 一 点 点 儿 。DeepID 项 
目 采 用 4 层 卷 积 神经 网 络 (不 含 输入 层 和 输出 层 ) 结 构 , DeepFace 采用 5 层 卷 积 神经 网 络 
(不 含 输入 层 和 输出 层 , 其 中 后 三 层 没有 采用 权 值 共享 以 获得 不 同 的 局 部 统计 特征 ) 结 构 。 

之 后 ,采用 基于 卷 积 神经 网 络 的 学 习 方法 ,香港 中 文大 学 的 DeepID2 项 目 将 识别 率 提 
高 到 了 99.15% ,超过 目前 所 有 领先 的 深度 学 习 和 非 深 度 学 习 算法 在 LFW 数据 库 上 的 识别 
率 以 及 人 类 在 该 数据 库 的 识别 率 。DeepID2 项 目 采 用 和 DeepID 项 目 类 似 的 深度 结构 , 包 
含 4 个 卷 积 层 ,其 中 第 3 层 采用 2X2 邻 域 的 局 部 权 值 共享 ,第 4 层 没有 采用 权 值 共享 , 且 输 
出 层 与 第 3、4 层 都 全 连接 。 


7.3.3 深度 学 习 在 视频 分 类 及 行为 识别 中 的 应 用 


A. Karpathy 等 基于 卷 积 神经 网 络 提供 了 一 种 应 用 于 大 规模 视频 分 类 上 的 经 验 评 估 模 
型 ,将 Sports-1M 数据 集 的 100 万 段 YouTube 视频 数据 分 为 487 类 。 该 模型 使 用 4 种 时 空 
信息 融合 方法 用 于 卷 积 神经 网 络 的 训练 .融合 方法 包括 单 帧 不 相 邻 两 帧 、 相 邻 多 帧 以 及 多 
阶段 相 邻 多 帧 ; 此 外 提出 了 一 种 多 分 辨 率 的 网 络 结构 ,大 大 提升 了 神经 网 络 应 用 于 大 规模 
数据 时 的 训练 速度 。 该 模型 在 Sports-1M 上 的 分 类 准确 率 达 63. 9% , 相 比 于 基于 人 工 特征 
的 方法 (55. 3%), 有 很 大 提升 。 此 外 ,该 模型 表现 出 较 好 的 泛 化 能 力 ,单独 使 用 多 阶段 相 邻 
多 帧 方法 所 得 模型 在 UCF-101 动作 识别 数据 集 上 的 识别 率 为 65. 4% ,而 该 数据 集 的 基准 
识别 率 为 43. 9%。 

S.Ji 等 提出 一 个 三 维 卷 积 神经 网 络 模型 用 于 行为 识别 。 该 模型 通过 在 空间 和 时 序 上 运 
用 三 维 卷 积 提 取 特 征 , 从 而 获得 多 个 相 邻 帧 间 的 运动 信息 。 该 模型 基于 输入 帧 生成 多 个 特 
征 图 通道 ,将 所 有 通道 的 信息 结合 获得 最 后 的 特征 表示 。 该 三 维 卷 积 神经 网 络 模型 在 
TRECVID 数据 上 优 于 其 他 方法 ,表明 该 方法 对 于 真实 环境 数据 有 较 好 的 效果 ; 该 模型 在 
KTH 数据 上 的 表现 , 逊 于 其 他 方法 ,原因 是 为 了 简化 计算 而 缩小 了 输入 数据 的 分 辩 率 。 

M. Baccouche 等 提出 一 种 时 序 的 深度 学 习 模 型 ,可 在 没有 任何 先 验 知识 的 前 提 下 ,学 
习 分 类 人 体 行为 。 模 型 的 第 一 步 , 是 将 卷 积 神经 网 络 拓展 到 三 维 , 自 动 学 习 时 空 特征 。 接 下 
来 使 用 RNN 方法 训练 分 类 每 个 序列 。 该 模型 在 KTH 上 的 测试 结果 优 于 其 他 已 知 深度 模 
型 ,KTH1 和 KTH2 上 的 精度 分 别 为 94. 39% 和 92. 17%。 
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事实 上 ,深度 学 习 的 应 用 远 不 止 这 些 , 但 是 这 里 只 是 分 别 从 数据 的 维度 上 (音频 文本 ,一 
维 ; 图 像 ,二 维 ; 视频 ,三 维 ) 对 深度 学 习 的 典型 应 用 进行 详细 介绍 ,目的 在 于 突出 深度 学 习 
带 来 的 优越 性 能 以 及 其 对 不 同 数据 的 应 用 能 力 。 其 他 应 用 还 包括 图 像 超 分 辨 率 重 建 、 纹 理 
识别 ,行人 检测 ,场景 标记 ,门牌 识别 等 。 


7.4 深度 学 习 的 研究 近况 及 未 来 研究 方向 


7.4.1 研究 近况 


随 着 深度 学 习 的 广泛 应 用 ,很 多 新 的 算法 被 提出 。2010 年 提出 的 一 种 新 颖 的 半 监 督学 
习 算 法 即 判 别 深度 置信 和 网 (Discriminative Deep Belief Networks, DDBNs) ,被 成 功 地 应 用 到 
可 视 化 数据 分 类 。 通 过 结合 非 监 督学 习 的 泛 化 能 力 和 监督 学 习 的 判别 能 力 ,DDBN 在 合成 
数据 集 以 及 真实 世界 的 数据 集中 展示 出 了 令 人 印象 深刻 的 学 习 表 现 。2013 年 ,国内 学 者 又 
开发 了 一 种 半 监 督学 习 算 法 , 称 为 卷 积 深度 网 络 (Convolutional Deep Networks,CDN), 用 
来 解决 深度 学 习 中 图 像 的 分 类 问题 。 提 取 符 合 数据 分 布 结构 的 特征 一 直 是 模式 识别 领域 的 
热点 问题 , 孙 志 军 等 在 预 训练 阶段 采用 非 监督 正则 化 ,并 利用 边际 Fisher 准则 进一步 约束 
提取 的 特征 ,提出 了 基于 深度 学 习 的 边际 Fisher 分 析 特 征 提取 算法 DMFA(Deep Margiml 
Fisher Analysis) ,提升 了 识别 率 。 

用 深层 学 习 的 算法 去 破译 个 人 的 思维 和 想法 是 研究 人 员 面 临 的 下 一 个 挑战 ,要 实现 这 
种 理解 能 力 , 首 先是 构建 可 以 理解 人 们 感情 的 算法 ,然后 建立 能 理解 多 维度 情感 的 算法 。 为 
解决 自然 领域 的 情感 分 析 问 题 ,许多 新 的 算法 相继 被 提出 。 最 近 , 斯 担 福 大 学 的 研究 生 
Richard Socher 和 Andrew Ng(Google 深度 学 习 项 目 工程 师 之 一 ) 等 人 共同 研究 开发 了 一 
个 深度 学 习 的 新 算法 , 即 Neural Analysis of Sentiment(NaSent) 。NaSent 算法 从 人 脑 中 得 
到 灵感 ,目的 是 改善 当前 书面 语言 的 分 析 方 法 ,从 而 确定 字里行间 流露 的 感情 。 与 其 他 算法 
相 比 ,NaSent 可 以 更 好 地 理解 书面 语言 。 

NaSent 旨 在 开发 一 种 可 在 无 人 监督 的 情况 下 运行 的 算法 。 由 于 词义 会 随 语 境 的 不 同 
而 变化 ,就 算是 语言 专家 也 难以 准确 地 定义 语言 中 的 感情 。 深 度 学 习 模 型 就 是 为 了 解决 这 
些 问题 。 目 前 ,应 用 最 广 的 情绪 分 析 是 “ 词 袋 "模型 , 它 并 没有 将 词 序列 人 考虑 范围 。 词 袋 中 
的 词汇 有 正面 和 负面 之 分 ,通过 计数 来 推断 整个 段落 的 含义 是 正面 还 是 负面 。 不 过 有 人 指 
出 将 词汇 单独 分 析 的 方法 并 不 准确 ,必须 将 其 放 和 人 到 越 来 越 大 的 结构 中 。Socher 和 他 的 团 
队 从 影评 网 站 Rotten Tomatoes 抽取 了 12 000 个 句子 ,并 将 其 粗略 分 割 为 214 000 个 词组 ， 
每 个 词组 以 数字 的 形式 标记 为 负面 .中 立 或 正面 ,计算 机 科学 家 称 这 些 数 字 化 的 表述 为 “ 特 
征 表示 ”, 这 与 人 脑 理解 概念 和 定义 的 方式 类 似 。NaSent 算法 的 核心 就 是 分 析 和 组 织 这 些 
被 标记 的 数据 。NaSent 将 准确 率 从 80% 提 高 到 了 85%。 


7.4.2 未 来 研究 方向 


经 过 近 几 十 年 来 大 量 研究 人 员 对 人 工 神 经 网 络 的 理论 和 实验 研究 ,深度 学 习 领 域 的 研 
究 取 得 了 一 定 进展 ,实验 结果 表明 了 其 良好 的 学 习性 能 。 但 是 目前 深度 学 习 领 域 的 研究 仍 
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然 存在 许多 有 待 进一步 解决 的 问题 ,未 来 深度 学 习 的 研究 在 理论 分 析 、 数 据 表示 与 模型 \ 特 
征 提取 、 训 练 与 优化 求解 以 及 研究 拓展 这 5 个 方面 需要 进一步 研究 。 

1. 理论 分 析 

需要 更 好 地 理解 深度 学 习 及 其 模型 ,进行 更 加 深入 的 理论 研究 。 深 度 学 习 模 型 的 训练 
为 什么 那么 困难 ? 这 仍然 是 一 个 开放 性 问题 。 一 个 可 能 的 答案 是 深度 结构 神经 网 络 有 许多 
层 ,每 一 层 由 多 个 非 线性 神经 元 组 成 ,使 得 整个 深度 结构 神经 网 络 的 非 线性 程度 更 强 ,减弱 
了 基于 梯度 的 寻 优 方法 的 有 效 性 ; 另 一 个 可 能 的 答案 是 局 部 极 值 的 数量 和 结构 随 着 深度 结 
构 神 经 网 络 深度 的 增加 而 发 生 定性 改变 ,使 得 训练 模型 变 得 更 加 困难 。 造 成 深度 学 习 训 练 
困难 的 原因 究竟 是 由 于 用 于 深度 学 习 模 型 的 监督 训练 准则 大 量 存在 不 好 的 局 部 极 值 ,还 是 
因为 训练 准则 对 优化 算法 来 说 过 于 复杂 ,这 是 值得 探讨 的 问题 。 此 外 ,对 堆栈 自 编码 网 络 学 
习 中 的 模型 是 否 有 合适 的 概率 解释 ,能 否 得 到 深度 学 习 模 型 中 似 然 函 数 梯 度 的 小 方差 和 低 
偏差 估计 ,能 否 同 时 训练 所 有 的 深度 结构 神经 网 络 层 ,除了 重 构 误差 外 ,是 否 还 存在 其 他 更 
合适 的 可 供 选 择 的 误差 指标 来 控制 深度 结构 神经 网 络 的 训练 过 程 ,是 否 存在 容易 求解 的 
RBM 配 分 函数 的 近似 函数 ,这 些 问题 还 有 待 未 来 研究 。 

2. 数据 表示 与 模型 

数据 的 表示 方式 对 学 习性 能 具有 很 大 的 影响 ,除了 局 部 表示 、 分 布 表示 和 稀 朴 分 布 表示 
外 ,可 以 充分 利用 表示 理论 研究 成 果 。 是 否 还 存在 其 他 形式 的 数据 表示 方式 ,是 否 可 以 通过 
在 学 习 的 表示 上 施加 一 些 形式 的 稀疏 罚 , 从 而 对 RBM 和 自 编 码 模型 的 训练 性 能 起 到 改进 
作用 ,以 及 如 何 改进 ; 是 否 可 以 用 便于 提取 好 的 表示 并 且 包 含 更 简单 优化 问题 的 凸 模型 代 
检 RBM 和 自 编码 模型 ; 不 增加 隐 单 元 的 数量 ,用 非 参数 形式 的 能 量 函 数 能 否 提高 RBM 的 
容量 等 ,未 来 还 需要 进一步 探讨 这 些 问 题 。 此 外 ,除了 卷 积 神经 网 络 .DBN 和 堆栈 自 编 码 网 
络 之 外 ,是 否 还 存在 其 他 可 以 用 于 有 效 训练 的 深度 学 习 模型 ,有 没有 可 能 改变 所 用 的 概率 模 
型 使 训练 变 得 更 容易 ,是否 存在 其 他 有 效 的 或 者 理论 上 有 效 的 方法 学 习 深 度 学 习 模型 ,这 也 
是 未 来 需要 进一步 研究 的 问题 。 现 有 的 方法 ,如 DBN-HMM 和 DBN-CRF, 在 利用 DBN 的 
能 力 方 面 只 是 简单 地 堆栈 琶 加 基本 模型 ,还 没有 充分 发 掘 出 DBN 的 优势 ,需要 研究 DBN 
的 结构 特点 ,充分 利用 DBN 的 潜在 优势 ,找到 更 好 的 方法 建立 数据 的 深度 学 习 模 型 ,可 以 
考虑 将 现 有 的 社会 网 络 、 基 因 调 控 网 络 结构 化 建 模 理论 以 及 稀 朴 化 建 模 等 理论 运用 其 中 。 

3. 特征 提取 

除了 高 斯 - 伯 努 利 模型 之 外 ,还 有 哪些 模型 能 用 来 从 特征 中 提取 重要 的 判别 信息 ,未 来 
需要 提出 有 效 的 理论 指导 在 每 层 搜索 更 加 合适 的 特征 提取 模型 。 自 编码 模型 保持 了 输入 的 
信息 ,这些 信 息 在 后 续 的 训练 过 程 中 可 能 会 起 到 重要 作用 ,未 来 需要 研究 用 CD 训练 的 
RBM 是 否 保持 了 输入 的 信息 ,在 没有 保持 输入 信息 的 情况 下 如 何 进行 修正 。 树 和 图 等 结构 
的 数据 由 于 大 小 和 结构 可 变 而 不 容易 用 向 量 表示 其 中 包含 的 信息 ,如 何 泛 化 深度 学 习 模 型 
来 表示 这 些 信 息 ,也 是 未 来 需要 研究 的 问题 。 尽 管 当前 的 产生 式 预 训练 加 判别 式微 调 学 习 
策略 看 起 来 对 许多 任务 都 运行 良好 ,但 是 在 某 些 语言 识别 等 其 他 任务 中 却 失败 了 ,对 这 些 任 
务 ,产生 式 预 训练 阶段 的 特征 提取 似乎 能 很 好 地 描述 语音 变化 ,但 是 包含 的 信息 不 足以 区 分 
不 同 的 语言 ,未 来 需要 提出 新 的 学 习 策略 .对 这 些 学 习 任 务 提取 合适 的 特征 ,这 可 以 在 很 大 
程度 上 减 小 当前 深度 学 习 系 统 所 需 模 型 的 大 小 。 


4. 训练 与 优化 求解 

为 什么 随机 初始 化 的 深度 结构 神经 网 络 采用 基于 梯度 的 算法 训练 总 是 不 能 成 功 ? 产生 
式 预 训练 方法 为 什么 有 效 ? 未 来 需要 研究 训练 深度 结构 神经 网 络 的 贪 禁 逐 层 预 训 练 算法 到 
底 在 最 小 化 训练 数据 的 似 然 函 数 方面 结果 如 何 , 是 否 过 于 贪 禁 , 以 及 除了 贪 禁 逐 层 预 训练 的 
许多 变形 和 半 监 督 能 入 算法 之 外 ,还 有 什么 其 他 形式 的 算法 能 得 到 深度 结构 神经 网 络 的 局 
部 训练 信息 。 此 外 ,无 监督 逐 层 训练 过 程 对 训练 深度 学 习 模 型 起 到 帮助 作用 ,但 有 实验 表明 
训练 仍 会 陷入 局 部 极 值 并 且 无 法 有 效 利用 数据 集中 的 所 有 信息 ,能 否 提出 用 于 深度 学 习 的 
更 有 效 的 优化 策略 来 突破 这 种 限制 ,基于 连续 优化 的 策略 能 否 用 于 有 效 改进 深度 学 习 的 训 
练 过 程 ,这 些 问题 还 需要 继续 研究 。 二 阶梯 度 方法 和 自然 梯度 方法 在 理论 研究 中 可 证 明 对 
训练 求解 深度 学 习 模 型 有 效 ,但 是 这 些 算法 还 不 是 深度 结构 神经 网 络 优化 的 标准 算法 ,未 来 
还 需要 进一步 验证 和 改进 这 些 算 法 ,研究 其 能 否 代替 微 批 次 随机 梯度 下 降 类 算法 。 当 前 的 
基于 微 批 次 随机 梯度 优化 算法 难以 在 计算 机 上 并 行 处 理 , 目 前 最 好 的 解决 方法 是 用 GPU 
来 加 速 学 习 过 程 , 但 是 单个 机 器 的 GPU 无 法 用 于 处 理 大 规模 语音 识别 和 类 似 的 大 型 数据 
集 的 学 习 , 因 此 未 来 需要 提出 理论 上 可 行 的 并 行 学 习 算法 来 训练 深度 学 习 模 型 。 

5. 研究 拓展 

当 深度 模型 没有 有 效 的 自 适 应 技术 ,在 测试 数据 集 分 布 不 同 于 训练 集 分 布 时 ,它们 很 难 
得 到 比 常 用 模型 更 好 的 性 能 ,因此 未 来 有 必要 提出 用 于 深度 学 习 模 型 的 自 适应 技术 以 及 对 
高 维 数据 具有 更 强 鲁 棒 性 的 更 先进 的 算法 。 未 来 需要 研究 是 否 存 在 训练 深度 学 习 的 完全 
在 线 学 习 过 程 能 够 一 直 具 有 无 监督 学 习 成 分 。DBN 模型 很 适合 半 监 督学 习 场 景 和 自 教 
学 习 场 景 , 当 前 的 深度 学 习 算 法 如 何 应 用 于 这 些 场景 并 且 在 性 能 上 优 于 现 有 的 半 监 督学 
习 算 法 ,如何 结合 监督 和 无 监督 准则 来 学 习 输 入 的 模型 表示 ,是 否 存在 一 个 深度 使 得 深 
度 学 习 模 型 的 计算 足够 接近 人 类 在 人 工 智能 任务 中 表现 出 的 水 平 ,这 也 是 未 来 需要 进 一 
步 研究 的 问题 。 


小 结 


深度 学 习 已 成 功 应 用 于 多 种 模式 分 类 问题 。 这 一 领域 虽 处 于 发 展 初期 ,但 它 的 发 展 无 
疑 会 对 机 器 学 习 和 人 工 智 能 系统 产生 影响 。 同 时 它 仍 存在 某 些 不 适合 处 理 的 特定 任务 , 壁 
如 语言 辨识 ,生成 性 预 训练 提取 的 特征 仅 能 描述 潜在 的 语音 变化 ,不 会 包含 足够 的 不 同 语言 
间 的 区 分 性 信息 ; 虹膜 识别 等 每 类 样本 仅 含 单个 样本 的 模式 分 类 问题 也 是 不 能 很 好 完成 的 
任务 。 

深度 学 习 目 前 仍 有 大 量 工作 需要 研究 。 模 型 方面 是 否 有 其 他 更 为 有 效 且 有 理论 依据 的 
深度 模型 学 习 算法 ,探索 新 的 特征 提取 模型 是 值得 深入 研究 的 内 容 。 此 外 ,有 效 的 可 并 行 训 
练 算 法 也 是 值得 研究 的 一 个 方向 。 当 前 基于 最 小 批 处 理 的 随机 梯度 优化 算法 很 难 在 多 计算 
机 中 进行 并 行 训 练 。 通 常 的 办 法 是 利用 图 形 处 理 单元 加 速 学 习 过 程 ,然而 单个 机 器 GPU 
对 大 规模 数据 识别 或 相似 任务 数据 集 并 不 适用 。 在 深度 学 习 应 用 拓展 方面 ,如 何 充分 合理 
地 利用 深度 学 习 增 强 传统 学 习 算法 的 性 能 仍 是 目前 各 领域 的 研究 重点 。 
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过 


题 


.讨论 深度 学 习 与 已 有 的 人 工 神经 网 络 方法 的 区 别 与 联系 。 
. 举例 说 明 深度 学 习 在 某 一 行业 的 应 用 。 

. 讨论 深度 学 习 的 研究 近况 。 

. 讨论 深度 学 习 的 未 来 发 展 方向 。 


> co 忆 于 


第 


tt 


Web 控 掘 技术 


随 着 近 二 十 多 年 互联 网 的 迅速 发 展 和 个 人 上 网 的 普及 ,互联 网 发 展 到 今天 已 经 成 为 人 
们 生活 中 不 可 缺少 的 一 部 分 了 , 它 已 成 为 世界 上 规模 最 大 的 公共 数据 源 , 并 且 涉 及 各 个 领 
域 ,如 何 挖掘 有 用 信息 和 知识 成 为 数据 挖掘 研究 的 热点 。Web 挖掘 继承 了 传统 数据 挖掘 的 
过 程 , 即 数据 收集 、 数 据 预 处 理 .数据 挖掘 .后续 处 理 , 但 是 Web 挖掘 的 各 个 过 程 与 传统 的 数 
据 挖掘 又 不 完全 相同 。Web 挖掘 是 一 项 涉及 Web 技术 数据 挖掘 .计算 机 语言 学 .信息 学 
等 多 个 领域 的 综合 技术 ,本 章 概要 介绍 Web 技术 挖掘 的 研究 现状 及 其 应 用 发 展 。 


8.1 Web 数据 挖掘 概述 


数据 挖掘 技术 是 人 们 长 期 对 数据 库 技 术 进行 研究 和 开发 的 结果 。 从 起 初 将 各 种 商业 数 
据 存储 在 计算 机 的 数据 库 中 ,到 后 来 可 以 对 数据 库 进行 查询 和 访问 ,甚至 是 即时 遍历 。 但 
是 , 随 着 人 们 积累 的 数据 越 来 越 多 ,如 何 从 海量 的 数据 中 找到 内 在 的 规律 ,获取 有 用 的 信息 ， 
挖掘 这 些 数 据 背后 隐藏 的 重要 信息 已 经 成 为 当前 高 科技 领域 研究 的 热点 。 目 前 ,数据 挖掘 
使 数据 库 技术 进入 了 一 个 更 高 级 的 阶段 , 它 不 仅 能 对 过 去 的 数据 进行 查询 和 人 遍历, 并且 能 够 
找 出 过 去 数据 之 间 的 潜在 联系 ,从 而 促进 信息 的 传递 。 


8.1.1 Web 数据 挖掘 的 概念 


Oren Etioni 在 1996 年 首次 提出 Web 数据 挖掘 这 一 概念 , 现 如 今 ,许多 会 议 、 期 刊 和 书 
中 涉及 Web 数据 挖掘 。 他 认为 Web 数据 挖掘 是 运用 数据 挖掘 技术 从 Web 文档 和 服务 中 
自动 地 发 现 和 抽取 信息 。 一 般 情况 下 ,因特网 的 数据 挖掘 ”Web 数据 发 现 ”“ 网 络 信 息 挖 
据 ”“Web 信息 挖掘 ?等 也 可 以 被 认为 是 Web 数据 挖掘 的 同义词 。Web 数据 挖掘 是 一 项 综 
合 技术 ,是 数据 挖掘 技术 在 Web 领域 中 的 应 用 ,并 与 Web 技术 相 结合 的 产物 ,涉及 Web 技 
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术 .数据 挖掘 、 人 工 智能 以 及 统计 学 等 多 个 领域 。 

不 同 领域 的 学 者 对 Web 数据 挖掘 的 理解 也 不 一 致 ,因此 ,Web 数据 挖掘 目前 没有 统一 
的 定义 ,以 下 给 出 一 些 具 有 影响 力 的 Web 数据 挖掘 的 定义 。 

Srivastava 将 Web 数据 挖掘 定义 为 “从 Web 文档 和 Web 活动 中 抽取 感 兴趣 的 潜在 的 
有 用 模式 和 隐藏 的 信息 ”。 在 维基 百科 上 .Web 数据 挖掘 被 定义 为 “利用 数据 挖掘 技术 从 
Web 中 发 现 模 式 ”。 

本 书 采用 下 面 更 为 一 般 的 定义 。 

Web 数据 挖掘 是 从 大 量 Web 文档 的 集合 C 中 发 现 隐 含 的 模式 P ,如果 将 C 看 作 输 入 ， 
将 PP 看 作 输 出 ,那么 ,Web 数据 挖掘 的 过 程 就 是 从 输入 到 输出 的 一 个 映射 : CP。 

从 传统 数据 挖掘 的 概念 出 发 ,可 以 将 Web 数据 挖掘 理解 为 ,Web 数据 挖掘 是 从 大 量 非 
结构 化 、 异 构 的 Web 信息 资源 中 发 现 有 效 的 、 潜 在 可 用 的 及 最 终 可 以 理解 的 知识 (包括 概 
念 .模式 规则 ,规律 .约束 以 及 可 视 化 等 形式 ) 的 非 平凡 过 程 。 


8.1.2 Web 数据 挖掘 的 特点 


Web 数据 挖掘 是 一 种 特殊 的 数据 挖掘 , 它 是 在 传统 的 数据 挖掘 技术 的 基础 上 与 现代 统 
计 分 析 . 人 工 智能 等 技术 相 结合 产生 的 。 虽 然 Web 数据 挖掘 技术 是 由 传统 数据 挖掘 技术 发 
展 而 来 的 ,但 是 它们 还 是 有 很 多 不 同 之 处 。 

(1) 数据 量 巨大 ,动态 性 极 强 ,并 且 增 长 速度 惊人 。 这 些 数据 的 主题 广泛 而 且 内 容 多 
样 。 用 户 可 以 在 互联 网 上 找到 几乎 所 有 信息 。 

(2) 各 种 类 型 的 数据 ,例如 结构 化 的 表格 、 半 结构 化 的 网 页 .无 结构 化 文本 以 及 多 媒体 
文件 (图 片 音频 和 视频 ) 。 

(3) 异 构 数 据 库 环境 。 由 于 网 页 作者 的 不 同 , 多 数 表示 相同 或 相似 内 容 的 网 页 可 能 会 
使 用 完全 不 同 的 文字 和 格式 。 所 以 Web 页 面 的 结构 比 一 般 文本 文件 复杂 得 多 , 它 可 以 支持 
多 种 媒体 的 表达 ,这 将 使 多 个 网 页 信息 整合 变 为 一 项 挑战 。 

(4) 绝 大 部 分 信息 是 互相 连接 的 。 网 站 内 部 和 网 站 之 间 的 网 页 通过 超 链 接 建立 联系 。 
在 一 个 网 站 内 部 ,这 些 超 链接 是 一 种 有 效 的 信息 组 织 方式 。 在 多 个 网 站 之 间 , 超 链接 隐 式 地 
将 权威 度 传递 给 目标 页 面 。 也 就 是 说 ,那些 被 多 次 链接 (指向 ) 的 网 页 通常 是 具有 高 质量 的 
网 页 ,或 称 为 权威 网 页 ,因为 大 多 数 人 认为 其 内 容 可 信 。 

(5) 信息 包含 噪声 。 这 些 噪 声 主要 来 自 两 个 地 方 。 其 一 ,一 个 网 页 通常 包含 多 块 内 容 ， 
例如 ,网 页 的 主要 内 容 、. 导 航 链接 广告 .版 权 声明 、 隐 私 策略 等 。 对 于 特定 应 用 而 言 , 只 有 其 
中 一 部 分 信息 是 有 用 的 ,其 余 的 全 是 噪声 。 为 了 进行 细 粒 度 的 Web 信息 分 析 与 数据 挖掘， 
这 些 品 声 必须 去 除 。 其 二 ,互联 网 本 身 没 有 信息 质量 的 控制 机 制 ,也 就 是 说 ,任何 人 都 可 以 
发 表 任 何 言 论 。 因 此 ,存在 许多 质量 低下 、 漏 洞 百 出 甚至 带 有 误导 性 质 的 信息 。 

(6) 半 结构 化 的 数据 结构 。 虽 然 说 互联 网 上 信息 很 多 ,但 实际 上 用 户 需要 的 信息 却 不 
多 , 真 可 谓 “ 大 海 捞 针 ”。Web 挖掘 研究 覆盖 了 多 个 研究 领域 ,包括 数据 库 技 术 、 信 息 获取 技 
术 、 统 计 学 ,人工 智能 中 的 机 器 学 习 和 神经 网 络 等 ,使 用 多 种 数据 挖掘 技术 在 WWW 数据 中 
发 现 潜在 的 ,有 用 的 模式 或 信息 。 与 传统 数据 和 数据 仓库 相 比 , Web 上 的 信息 是 非 结构 化 
或 半 结 构 化 的 ,动态 的 并 且 是 容易 造成 混淆 的 ,所 以 很 难 直 接 以 Web 网 页 上 的 数据 进行 数 
据 挖掘 ,而 必须 经 过 必要 的 数据 处 理 。 
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8.1.3 Web 数据 挖掘 的 处 理 流程 


传统 数据 挖掘 是 Web 数据 挖掘 的 基础 ,因此 ,传统 数据 挖掘 与 Web 数据 挖掘 在 流程 上 
有 相通 之 处 ,但 是 ,由 于 Web 挖掘 本 身 的 特点 ,决定 了 具体 的 挖掘 过 程 双 有 所 区 别 。 典 型 
Web 数据 挖掘 的 处 理 流 程 有 4 个 步骤 ,如 图 8-1 所 示 。 


查找 资源 | 一 全 | 数据 预 处 理 | 一 > | 模式 发 现 | 一 >| 模式 分 析 


图 8-1 Web 数据 挖掘 的 流程 


(1) 查找 资源 。 任 务 是 从 目标 Web 文档 中 得 到 数据 。 值 得 注意 的 是 有 时 信息 资源 不 
仅 限 于 在 线 Web 文档 ,还 包括 电子 邮件 .Cookie、 表 单 或 用 户 注册 数据 .电子 文档 .新 闻 组 或 
者 网 站 服务 器 的 日 志 数 据 甚 至 是 通过 Web 形成 的 电子 商务 站 点 交易 数据 库 中 的 数据 。 

(2) 数据 预 处 理 。 任 务 是 从 取得 的 Web 资源 中 剔除 无 用 信息 和 将 信息 进行 必要 的 整 
理 。 例 如 ,从 Web 文档 中 自动 去 除 广告 链接 ,去 除 多 余 格 式 标 记 , 自 动 识别 段落 或 者 字段 并 
将 数据 组 织 成 规整 的 逻辑 形式 甚至 是 关系 表 。 数 据 预 处 理 是 为 数据 挖掘 所 做 的 前 期 准备 。 

(3) 模式 发 现 。 模 式 发 现 是 数据 挖掘 的 核心 部 分 ,将 经 过 预 处 理 的 海量 数据 送 到 数据 
挖掘 算法 中 去 ,自动 生成 模式 和 知识 。 可 以 在 同一 个 站 点 内 部 或 在 多 个 站 点 之 间 进 行 。 

(4) 模式 分 析 。 对 发 现 的 模式 进行 解释 和 评估 ,在 许多 应 用 中 ,并 不 是 所 有 被 发 现 的 模 
式 都 是 有 用 的 ,这 个 步骤 就 是 要 识别 有 用 的 部 分 ,采用 一 些 评估 和 可 视 化 的 技术 ,通过 验证 ， 
解释 上 一 步骤 产生 的 模式 。 必 要 时 需要 返回 前 面 处 理 中 的 某 些 步骤 以 反复 提取 ,最 后 ,发 现 
的 知识 以 能 理解 的 方式 提供 给 用 户 ,可 以 是 机 器 自动 完成 ,也 可 以 是 与 分 析 人 员 进 行 交互 来 


8.1.4 Web 数据 挖掘 与 信息 检索 、 信 息 抽 取 的 区 别 


Web 挖掘 作为 一 个 完整 的 技术 体系 ,在 进行 挖掘 之 前 的 信息 检索 (Information 
Retrieval ,IR) 和 信息 抽取 (Information Extraction ,IE) 相 当 重 要 。 

信息 检索 是 指 信息 按 一 定 的 方式 组 织 起 来 ,并 根据 信息 用 户 的 需要 找 出 有 关 的 信息 的 
过 程 和 技术 。 狭 义 的 信息 检索 就 是 信息 检索 过 程 的 后 半 部 分 , 即 从 信息 集合 中 找 出 所 需要 
的 信息 的 过 程 , 也 就 是 我 们 常 说 的 信息 查寻 (Information Search 或 Information Seek) 。 信 
息 检 索 的 目的 在 于 找到 相关 Web 文档 , 它 只 是 把 文档 中 的 数据 看 成 未 经 排序 的 词组 的 
集合 。 

信息 抽取 是 把 文本 里 包含 的 信息 进行 结构 化 处 理 , 变 成 表格 一 样 的 组 织 形式 。 输 入 信 
息 抽 取 的 是 原始 文本 ,输出 的 是 固定 格式 的 信息 点 。 信 息 抽 取 的 目的 在 于 从 文档 中 找到 需 
要 的 数据 项 目 , 它 对 文档 的 结构 和 表达 的 含义 感 兴趣 , 它 的 一 个 重要 任务 就 是 对 数据 进行 组 
织 整 理 并 适当 建立 索引 。 

Web 数据 挖掘 是 一 个 从 本 质 上 提高 网 页 搜索 引擎 的 效率 和 质量 的 优秀 的 和 更 富有 挑 
战 性 的 方法 ,因为 Web 挖掘 可 以 鉴别 出 可 靠 的 网 页 ,对 网 页 文献 进行 分 类 ,以 及 解决 网 络 搜 
索引 擎 中 有 歧义 或 细微 差别 的 问题 。 所 以 Web 数据 挖掘 是 指 从 Web 数据 中 挖掘 出 本 质 关 
系 ( 例 如 ,用 户 感 兴趣 的 或 有 用 的 信息 ) 的 过 程 ,这 些 Web 数据 通常 表现 为 文本 信息 、 链 接 信 
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息 或 使 用 信息 。 

对 信息 检索 和 信息 抽取 技术 的 研究 已 经 有 很 长 时 间 , 随 着 Web 技术 的 发 展 ,基于 Web 
技术 的 IR IE 得 到 了 更 多 的 重视 。 由 于 Web 数据 量 非常 大 ,而 且 可 能 动态 变化 ,目前 的 研 
究 方向 是 用 自动 化 ,半自动 化 的 方法 在 Web 上 进行 IR 和 IE。 在 Web 环境 下 既 要 处 理 非 结 
构 化 文档 ,又 要 处 理 半 结构 化 的 数据 ,最 近 几 年 在 这 两 方面 都 有 相应 的 研究 成 果 和 具体 应 
用 ,特别 是 在 大 型 搜索 引擎 中 得 到 了 很 好 的 应 用 。 


8.2 Web 数据 挖掘 分 类 


Web 数据 有 三 种 类 型 ,分别 是 : HTML 标记 的 Web 文档 数据 ,Web 文档 内 的 链接 结构 
数据 和 用 户 访 问 数据 。 相 应 地 , Web 数据 挖掘 可 分 为 三 类 : Web 内 容 挖 气 (Web Content 
Mining) ,来 源 于 网 页 上 的 非 结 构 化 的 文本 (通常 是 HTML 格式 ); Web 结构 挖掘 (Web 
Structure Mining) ,来 源 于 网 页 上 统一 资源 定位 符 的 (URL) 的 链接 ; Web 使 用 挖掘 (Web 
Usage Mining) ,来 源 于 网 站 访问 者 的 详细 信息 (一 段 时 间 内 链接 的 网 页 ) ,如 图 8-2 所 示 。 


Web 数据 挖掘 


Web 内 容 挖 所 Web 结 构 挖 气 | 。 | web 使 用 挖 所 
文本 | 多 媒体 || 文档 同 ]| 内 部 “] | 一般 访 ] [个 性 化 的 
数据 || 数据 | 超 链接 || 结构 || 向 模式 | 使 用 记录 
挖掘 || 挖掘 || 挖掘 || 挖 扎 || 控 据 || 控 气 


图 8-2 Web 数据 挖掘 的 分 类 


Web 内 容 挖 气概 述 


Web 内 容 挖 掘 是 一 种 基于 网 页 内 容 的 Web 挖掘 ,从 大 量 的 Web 数据 中 获取 潜在 的 有 
价值 的 知识 或 模式 的 过 程 ,是 对 网 页 上 真正 有 用 的 数据 进行 挖掘 ,包括 网 页 内 容 和 搜索 结果 
挖掘 ,从 网 络 信息 源 形式 来 看 ,大 量 网 络 信息 资源 是 具有 可 读 性 的 ,所 以 就 能 利用 自动 化 的 
工具 获取 网 页 上 的 信息 。 网 络 怜 虫 能 够 自动 地 阅读 网 页 上 的 信息 ,这 些 信 息 包含 类 似 文本 
挖掘 中 用 到 的 文献 特征 ,也 包含 其 他 一 些 概念 ,如 文献 的 层次 结构 。Web 内 容 挖 掘 能 够 提 
高 搜索 引擎 的 效能 。 例 如 ,根据 网 页 主题 ,可 以 自动 进行 聚 类 和 分 类 。 虽 然 这 些 任 务 与 传统 
数据 挖掘 的 任务 相似 ,但 是 我 们 依然 可 以 为 了 各 种 不 同 的 目的 从 网 页 中 根据 模式 抽取 有 用 
的 信息 ,例如 商品 描述 ,论坛 回帖 等 ,而 这 些 信息 可 以 被 用 作 进一步 分 析 来 挖掘 用 户 态 度 , 这 
些 任务 不 是 传统 的 数据 挖掘 任务 。 从 网 络 形式 上 来 看 ,网 络 数 据 既 有 文本 和 超 文 本 数据 ,也 
有 用 HTML 标记 的 半 结 构 化 数据 和 非 结 构 化 的 自由 文本 。 

Web 内 容 挖 掘 针对 的 对 象 是 文本 文档 和 多 媒体 文档 ,所 以 Web 内 容 挖掘 可 以 分 为 
Web 文本 数据 挖掘 和 Web 多 媒体 数据 挖掘 。Web 文本 数据 挖掘 是 Web 内 容 挖掘 中 比较 


8. 2.1 
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重要 的 技术 领域 ,可 以 对 Web 上 大 量 的 文档 集合 的 内 容 进行 总 结 、 分 类 、 聚 类 和 关联 分 析 
等 。Web 多 媒体 数据 挖掘 包括 运用 挖掘 技术 对 Web 上 的 音频 .视频 和 图 像 数据 进行 挖掘 ， 
目前 还 处 于 前 期 研究 。 


8.2.2 ”Web 结构 挖掘 概述 


Web 结构 挖掘 的 对 象 是 Web 本 身 的 超 链 接 , 即 对 Web 文档 的 结构 进行 挖掘 。Web 结 
构 挖 掘 就 是 从 Web 结构 和 链接 关系 中 推导 出 潜在 知识 和 模式 的 过 程 。 其 中 , Web 结构 包 
括 不 同 网 页 之 间 的 超 链接 结构 和 一 个 页 面 内 部 的 树 形 结构 ,以 及 文档 URL 中 的 目录 路 径 
结构 等 。 通 过 对 这 些 站 点 结构 进行 分 解 、 变 形 和 归纳 ,可 以 将 页 面 进行 分 类 和 聚 类 ,从 而 提 
高 信息 检索 效率 。 主 要 用 于 确定 权威 网 页 和 中 心 网 页 ,是 网 页 质量 排名 算法 的 基础 ,该 排名 
是 一 些 重要 搜索 引擎 (如 Google 和 Yahoo!) 的 核心 竞争 力 。 仅 看 链接 到 一 个 网 页 的 情况 就 
可 以 看 出 这 个 网 页 的 知名 度 ( 或 重要 性 ,或 权威 性 ) ,通过 页 内 的 链接 或 整个 网 站 情况 可 以 看 
出 该 网 页 上 对 某 个 话题 分 析 的 深度 ,对 于 分 析 大 量 网 页 之 间 的 关联 关系 来 说 ,链接 是 一 个 重 
要 的 分 析 方 法 ,能 够 帮助 用 户 更 好 地 理解 某 个 特定 社区 网 页 、 网 络 群 体 或 网 络 团 体内 的 
关系 。 

Web 结构 挖掘 的 基本 思想 是 将 Web 看 成 一 个 巨大 的 以 页 面 为 结 点 、 页 面 之 间 超 级 链 
接 为 有 向 边 所 构成 的 一 个 网 状 结构 的 有 向 图 ,然后 利用 图 论 对 Web 拓扑 结构 进行 分 析 , 从 
而 可 以 发 现 重 要 页 面 和 权威 页 面 , 以 确定 网 站 结构 的 合理 性 。 

Web 结构 挖掘 在 一 定 程度 上 得 益 于 社会 网 络 和 引用 分 析 的 研究 。 把 网 页 之 间 的 关系 
分 为 incoming 链接 和 outgoing 链接 ,运用 引用 分 析 方 法 找到 同一 网 站 内 部 以 及 不 同 网 站 之 
间 的 链接 关系 。 在 Web 结构 挖掘 领域 最 著名 的 算法 是 PageRank 查询 无 关 算法 和 HITS 
(HypertextInduced Topic Search) 查询 相关 算法 。 它 们 的 共同 点 是 使 用 一 定 方法 计算 
Web 页 面 之 间 超 链接 的 质量 ,从 而 得 到 页 面 的 权重 。 著 名 的 Clever 和 Google 搜索 引擎 就 
采用 了 该 类 算法 。 

此 外 ,Web 结构 挖掘 的 另 一 个 尝试 是 在 Web 数据 仓库 环境 下 的 挖掘 ,包括 通过 检查 同 
一 台 服 务 器 上 的 本 地 链接 衡量 Web 结构 挖掘 Web 站 点 的 完全 性 ,在 不 同 的 Web 数据 仓库 
中 检查 副本 以 帮助 定位 镜像 站 点 ,通过 发 现 针 对 某 一 特定 领域 超 链接 的 层次 属性 去 探索 信 
息 流动 如 何 影响 Web 站 点 的 设计 。 


8.2.3 ”Web 使 用 挖掘 概述 


Web 使 用 挖掘 (Web Usage Mining) 是 对 用 户 访问 Web 时 在 服务 器 上 留 下 的 访问 和 交 
易 中 产 生 的 数据 记录 进行 挖掘 ,在 新 兴 的 电子 商务 领域 有 重要 意义 , 它 通 过 挖掘 相关 的 
Web 日 志 记 录 ,来 发 现 用 户 访问 Web 页 面 的 模式 ,通过 分 析 日 志 记 录 中 的 规律 ,可 以 识别 
用 户 的 忠实 度 、 喜 好 、 满 意 度 , 可 以 发 现 潜在 用 户 , 从 而 为 用 户 提 供 个 性 化 推荐 服务 以 增强 站 
点 的 服务 竞争 力 。 现 在 的 Web 使 用 挖掘 通常 是 指 Web 日 志 挖掘 。 

前 面 所 述 的 Web 内 容 挖掘 和 Web 结构 挖掘 是 对 第 一 类 即 真正 的 原始 数据 进行 挖掘 ， 
而 Web 使 用 挖掘 是 对 Web 上 第 二 类 数据 即 Web 日 志 数据 及 相关 数据 的 挖掘 ,这 些 数据 除 
了 服务 器 的 日 志 记录 外 还 包括 代理 服务 器 日 志 、 浏 览 器 端 日 志 .注册 信息 .用 户 会 话 .交易 信 
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息 、Cookie 中 的 信息 等 。Web 使 用 挖掘 可 以 分 为 两 类 : 一 类 是 一 般 访 问 模式 跟踪 , 另 一 类 
是 个 性 化 的 使 用 记录 跟踪 。 从 Web 使 用 挖掘 的 方法 上 看 ,一般 的 传统 数据 挖掘 的 基本 方法 
如 关联 规则 、 分 类 、 聚 类 ,路径 分 析 和 序列 模式 发 现 等 在 这 里 都 适用 。 但 为 了 提高 挖掘 质量 ， 
研究 人 员 在 扩展 算法 上 进行 了 努力 ,包括 复合 关联 规则 算法 .改进 的 序列 发 现 算法 等 。 三 类 
Web 挖掘 比较 见 表 8-1。 


表 8-1 Web 数据 挖掘 比较 


种 类 Web 内 容 挖掘 Web 结构 挖掘 Web 使 用 挖掘 
- Wep 服务 器 日 志 
数据 Web 结构 链接 关系 浏览 器 日 志 
用 户 会 话 和 交易 记录 
。 非 结构 化 
数据 特征 二 链接 结构 交互 式 数据 
分 类 和 
分 类 、 聚 类 PageRank 算法 0 
关联 规则 HITS 算 法 三 
ee 序列 模式 和 路 径 分 析 
站 点 优化 
应 用 领域 用 户 建 模 站 点 优化 网 络 销售 
用 户 建 模 和 推荐 系统 


8.3 Web 内容 挖 掘 


Web 内 容 挖掘 是 对 网 页 内 容 进 行 挖掘 ,包括 文本 .图像 .语音 、 视 频 等 多 媒体 信息 ,其 中 
最 多 的 是 对 文本 信息 的 挖掘 ,所 用 到 的 数据 挖掘 技术 主要 是 对 文本 进行 分 类 和 聚 类 。 


8.3.1 特征 提取 和 特征 表示 


Web 文本 信息 采集 是 指 利 用 计算 机 软件 技术 ,针对 定制 的 目标 Web 站 点 ,实时 进行 信 
息 采 集 , 抽 取 、 挖 掘 、 处 理 ,从 而 为 智能 搜索 引擎 提供 数据 输入 的 整个 过 程 。 将 文本 信息 采集 
到 本 地 后 ,挖掘 工作 真正 开始 ,特征 提取 是 挖掘 工作 的 基础 ,由 于 采集 回来 的 都 是 非 结构 化 
或 是 带 有 HTML 简单 标识 的 半 结 构 化 文本 ,如 < title ></title > 标识 之 间 的 是 全 文 的 标题 ， 
但 这 些 标 识 能 够 提供 的 信息 非常 有 限 , 无 法 使 计算 机 理解 全 文 内 容 , 需 要 将 文本 转换 成 计算 
机 能 够 理解 的 结构 化 数据 , 即 用 文本 的 特征 来 表示 文本 本 身 。 文 本 特征 包括 描述 性 特征 和 
语义 性 特征 ,描述 性 特征 指 文本 的 物理 特征 ,如 日 期 \ 大 小 、 类 型 等 ,语义 性 特征 指 文 本 的 内 
容 特 征 , 如 文本 作者 、 标 题 摘 要、 内 容 等 ,文本 挖掘 要 做 的 是 提取 文本 的 内 容 特 征 。 

特征 提取 之 前 要 对 文本 进行 词 条 切 分 。 词 条 切 分 的 方法 有 很 多 ,在 数字 图 书馆 中 ,文本 
挖掘 的 专业 性 很 明确 ,可 以 考虑 将 专业 词 表 用 于 文本 的 切 分 中 。 基 本 思路 是 : 将 文本 d 先 
根据 HTML 标识 以 及 标点 进行 粗 切 分 ,然后 采用 禁用 词 表 将 "的. 地、 得、 了 、 如 果 ” 等 无 实 
际 意义 的 虚词 去 掉 , 获 得 短语 集合 P(pi ,…,p;,…,p,) ,再 将 短语 逐个 与 专业 词 表 工 中 的 词 
条 (1,… ,ti，…,t,) 进 行 匹 配 。 取 作为 文本 特征 词 条 。 经 典 的 文本 表示 模型 是 向 量 空间 
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模型 (Vector Space Model,VSM) ,由 Salton 等 人 于 20 世纪 60 年 代 末 提出 ,并 成 功 地 应 用 
于 著名 的 SMART 文本 检索 系统 。 向 量 空间 模型 对 文本 进行 简化 表示 ,认为 特征 之 间 是 相 
互 独立 的 而 忽略 其 依赖 性 ,将 文档 内 容 用 它 所 包含 的 特征 词 来 表示 : di; 二 (ta ,tz，*… ,tn)， 
其 中 ,ts 是 文档 di 的 第 k 个 特征 词 ,1 三 有 三 N 。 两 个 文档 di 和 ds 之 间 内 容 的 相似 程度 
Sim(di,d;) 通 过 计算 向 量 之 间 的 相似 性 来 度量 。 最 常用 的 相似 性 度量 方式 是 余弦 距离 。 


8.3.2 自动 摘要 


文本 的 摘要 是 对 文本 内 容 的 高 度 概括 ,使 用 户 在 不 阅读 全 文 的 基础 上 就 能 对 全 文 内 容 
有 总 体 的 把 握 ,但 目前 很 多 搜索 引擎 只 是 简单 提取 文本 前 面 的 句子 作为 摘要 ,效果 并 不 好 ， 
采用 好 的 算法 来 处 理 文本 摘要 ,提高 摘要 质量 ,也 是 文本 挖掘 的 重要 任务 之 一 。 一 般 的 自动 
文本 摘要 方法 都 是 直接 从 原文 获取 字符 串 来 组 成 摘要 ,基本 思路 是 : 扫描 全 文 , 以 标点 符号 
为 断 句 标识 ,得 到 文本 的 字 串 集合 ,对 出 现 了 特征 词 条 的 字 串 ,参考 特征 词 条 的 权重 值 ,赋予 
该 字 串 相应 的 权重 值 ,另外 调整 一 些 特殊 位 置 的 字 串 的 权重 值 ,如 对 < title > 后 面 的 文本 字 
串 赋予 最 高 的 权重 值 ,对 段 首 句 、 段 尾 句 增加 其 权重 值 , 并 且 记 录 每 个 文本 字 串 的 起 始 位 置 。 
此 时 ,文本 字 串 是 一 个 三 元 组 < Context, Weight,Position >。 最 后 根据 权 值 大 小 挑选 字 串 ， 
按照 字 串 在 文中 的 本 来 顺序 生成 文字 流畅 且 具 备 一 定 质量 的 自动 摘要 。 


8.3.3 文本 分 类 


目前 文本 分 类 的 方法 很 多 ,如 多 元 回归 模型 、k- 邻 近 方法 、 神 经 网 络 法 、 贝 叶 斯 方法 、 决 
策 树 法 、 支 持 向 量 机 等 ,这 些 方法 基本 上 可 以 分 为 两 类 : 统计 分 类 方法 和 基于 机 器 学 习 的 分 
类 方法 。 支 持 向 量 机 (SVM) 是 统计 学 习 理 论 领域 近 几 年 才 提 出 的 新 知识 ,目前 仍 处 于 发 展 
阶段 ,但 就 目前 的 应 用 而 言 ,SVM 在 很 多 领域 的 运用 效果 都 非常 理想 。 在 完成 特征 提取 之 
后 ,就 可 以 使 用 这 些 特征 来 表示 一 个 文本 。 具 体 的 表示 方法 因 分 类 方法 而 异 。 每 种 分 类 模 
型 都 会 采用 自己 的 方法 来 表示 一 个 文本 ,并 将 这 种 表示 方法 纳入 到 自己 的 体系 中 去 。 根 据 
特征 提取 阶段 获得 的 文本 特征 ,以 事先 确定 的 分 类 标准 为 依据 ,将 文本 集合 进行 分 类 。 之 所 
以 说 文本 挖掘 能 够 为 数字 图 书馆 用 户 提供 知识 ,是 因为 此 处 的 文本 分 类 是 根据 用 户 的 真正 
需求 进行 细 分 的 ,提供 给 用 户 的 是 很 个 性 化 的 结果 , 即 是 用 户 真 正 需要 的 知识 。 所 有 的 分 类 
模型 大 体 上 有 两 个 阶段 ,一 是 训练 阶段 ,二 是 分 类 阶段 。 一 般 来 说 ,训练 样 例 越 多 分 类 的 准 
确 度 越 有 保证 ,但 也 并 不 是 越 多 越 好 。 

1. 训练 阶段 

(1) 定义 类 别 集合 C=(c ,ccs)。 在 数字 图 书馆 中 ,对 于 同一 个 专业 领域 ,用 户 
的 专业 背景 .研究 方向 ,课题 任务 等 不 同 , 提 出 的 检索 要 求 也 会 有 很 大 差别 ,在 定义 类 别 集合 
阶段 ,根据 用 户 之 前 定制 信息 时 提出 的 检索 式 ,结合 其 专业 背景 、 研 究 方向 以 及 课题 任务 等 ， 
预先 设计 出 细致 的 分 类 类 别 , 并 且 对 特定 的 挖掘 任务 .可 以 请 该 领域 专家 对 划分 的 类 别提 出 
意见 ,以 求 划分 的 类 别 细 而 准确 。 

(2) 给 出 训练 文本 集合 D= (di,…,d;,…,d,).D 中 的 文本 已 经 由 用 户 确认 ,与 其 需求 
最 相关 ,可 以 代表 用 户 真实 需求 的 文本 ,每 一 个 d; 都 被 标 上 所 属 的 类 别 c;。 

(3) 统计 DD 中 所 有 文本 的 特征 向 量 V(d) ,确定 其 代表 C 中 每 个 类 别 的 特征 向 量 VCc) 。 
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2. 分 类 阶段 

(1) 对 于 测试 文本 集合 D(di,…,d;,…,d, ) 中 的 每 个 待 分 类 文本 d; 计算 其 特征 向 量 
V(di) 与 每 个 V(ci;) 之 间 的 相似 度 SIM(di,ci)。 

(2) 选取 相似 度 最 大 的 一 个 类 别 作为 ; 的 类 别 。 计 算 SIM(4d;,ci) 时 ,有 多 种 方法 可 供 
选择 ,最 简单 的 方法 是 仅 考虑 两 个 特征 值 向 量 中 所 包含 的 词 条 的 重 和 到 程度 , 即 ， 


n(V(di)) MN nV(e;) 
n(V(di)) U nVle;) 


其 中 ,nV(di))NnCV(ci)) 是 V(di;) 和 Vc;) 具 有 的 相同 词 条 数目 ,n(V(qd;))UnlV(ci)) 是 
V(di;) 和 Vl(ci) 具 有 的 所 有 词 条 数目 。 另 一 种 考虑 权重 值 的 算法 是 计算 两 个 特征 向 量 之 间 
的 夹 角 余弦 : 


SIM(d;,ci) = (8=1) 


> Vd) «Vlei)) 
2 1VGd) |e Vee) | 
由 于 是 根据 用 户 的 真实 需求 划分 的 类 别 , 此 时 就 可 以 将 分 类 后 的 文本 主动 提供 给 用 户 ， 


SIM(di,ci) = cos(V(di),V(Cc)) = 《8-2) 


而 不 需要 用 户 再 进行 检索 ,用 户 可 以 将 自己 觉得 最 有 用 、 最 相关 的 文本 反馈 给 系统 ,系统 可 
凭 此 对 分 类 的 相关 性 做 出 进一步 调整 。 
8.3.4 ”文本 聚 类 


文本 聚 类 是 指 把 文本 集合 按照 相似 性 归 成 若干 类 别 。 与 分 类 有 所 不 同 , 聚 类 没有 预先 
定义 好 主题 类 别 标记 ,需要 由 聚 类 学 习 算 法 来 自动 确定 。 其 目标 是 将 文档 集合 分 成 若干 个 
簇 ,要 求 同 一 簇 内 文档 内 容 的 相似 度 尽 可 能 的 大 而 不 同 簇 间 的 相似 度 尽 可 能 的 小 。 在 数字 
图 书馆 中 ,利用 文本 分 类 可 以 为 用 户 提 供 相 关 性 最 高 的 信息 ,而 文本 聚 类 在 数字 图 书馆 中 主 
要 针对 最 新 的 学 科 前 沿 信息 ,将 相关 性 高 的 文本 聚 成 一 类 供用 户 浏 览 ,通常 放 在 数字 图 书馆 
网 站 上 的 “最 新 学 科 信息 栏目 "。 文 本 聚 类 算法 有 很 多 种 ,大 致 可 以 分 为 两 种 类 型 : 以 
GHAC 等 算法 为 代表 的 层次 聚 类 (Hierarchical Clusters) 法 和 以 k-means 等 算法 为 代表 的 
平面 划分 法 。 


8.4 Web 结构 挖掘 


World Wide Web 由 许多 的 Web 站 点 构成 ,而 每 个 Web 站 点 又 包含 许多 的 Web 页 ， 
Web 页 与 普通 文档 不 同 , 它 所 包含 的 信息 由 以 下 三 个 部 分 组 成 : 网 页 正文 ,网 页 所 包含 的 超 
文本 标记 以 及 网 页 间 的 超 链接 。 

整个 Web 空间 中 ,有 用 知识 不 仅 包含 在 Web 页 面 内 容 中 ,也 包含 在 Web 页 间 超 链接 
结构 与 Web 页 面 结 构 之 中 。 从 广义 上 讲 , Web 结构 所 包含 的 信息 有 : URL 字符 串 中 的 
目录 路 径 结构 信息 ; @ 网 页 内 部 内 容 的 可 以 用 HTML、XML 表示 成 的 树 形 结构 ; 四 网 页 之 
间 的 超 链接 结构 。 挖 气 Web 结构 的 目的 是 发 现 页 面 的 结构 和 Web 间 的 结构 ,在 此 基础 上 
对 页 面 进 行 分 类 和 聚 类 ,从 而 找到 权威 页 面 ,这 种 方法 可 以 用 来 改进 搜索 引擎 。 

通过 挖掘 Web 的 结构 信息 ,可 以 揭示 许多 蕴含 在 Web 内 容 之 外 的 隐 含 的 有 用 信息 ,如 
Web 页 面 的 URL 可 以 反映 页 面 的 类 型 ,也 可 以 在 一 定 程度 上 反映 页 面 间 在 存储 位 置 和 内 
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容 方 面 的 层次 关系 , URL 目录 解析 的 概念 及 通过 分 析 网 页 的 URL, 分 析 这 种 层 析 关系 。 
Spertus 提出 了 与 Web 页 面 URL 有 关 的 启发 式 规则 ,并 用 于 寻找 个 人 主页 ,或 者 已 经 改变 
了 位 置 的 Web 页 的 新 位 置 。 

页 内 链接 主要 是 用 于 对 包含 大 量 内 容 的 Web 页 起 到 页 内 导航 的 作用 ,通过 分 析 Web 
页 面 内 部 树 形 结构 ,可 以 得 到 其 结构 特征 ,并 用 于 寻找 与 给 定 的 页 面 集 和 { Pi,P,…,P,} 内 
容 相 关 的 其 他 页 面 。 


8.4.1 超 链 和 页 面 内 容 的 关系 


万 维 网 上 任何 一 个 站 点 或 页 面 都 不 会 是 孤立 的 ,都 通过 其 中 的 超 链 同 其 他 相关 联 的 站 
点 或 页 面相 链接 ,通过 这 种 链接 方式 相聚 类 。 但 主题 相同 的 所 有 站 点 或 页 面 不 一 定 会 围绕 
一 个 中 心 CHub) 相 聚集 ,也 就 是 说 一 个 主题 会 存在 多 个 聚集 中 心 。 聚 集中 心 的 站 点 或 页 面 
之 间 的 链接 关系 最 为 密切 ,内 容 也 最 为 相似 , 随 着 内 容 相似 度 的 降低 ,相互 连接 关系 也 会 逐 
渐 减 少 。 另 外 ,内 容 上 的 关联 关系 也 会 随 着 链接 次 数 的 增加 而 降低 ,会 从 一 个 主题 逐渐 演化 
为 另外 一 个 主题 。 

一 个 网 站 如 果 链 接 了 许多 权威 网 站 ,那么 它 就 是 一 个 中 心 网 站 (Hub): 如 果 一 个 网 站 
被 许多 中 心 网 站 链接 ,那么 它 就 是 一 个 权威 网 站 (Authority) ,分 别 如 图 8-3 和 图 8-4 所 示 。 


: tg 
Le ; 于 
Hub 网 页 < 和 三 O 〇 5 鸭 贡 “eo 
O 〇 O 〇 
图 8-3 中 心 网 站 图 8-4 权威 网 站 


Web 页 之 间 的 超 链接 结构 中 包含 许多 有 用 的 信息 。 当 网 页 A 到 B 存在 一 个 超 链接 时 ， 
则 说 明 网 页 A 的 作者 认为 网 页 B 的 内 容 非 常 重要 , 且 两 个 网 页 的 内 容 具 有 相似 性 的 主题 。 
因此 ,指向 文档 的 超 链接 体现 了 该 文档 的 被 引用 情况 。 如 果 大 量 的 链接 都 指向 了 同一 个 网 
页 ,就 认为 它 是 一 个 权威 页 。 这 就 是 类 似 于 论文 对 参考 文献 的 引用 ,如 果 某 一 篇 文章 经 常 被 
引用 ,就 说 明 它 非常 重要 。 这 种 思想 有 助 于 对 搜索 引擎 的 返回 结果 进行 相关 度 排序 。 


8.4.2 不 同 挖掘 阶段 的 分 析 


首先 进行 信息 搜索 ,通常 是 基于 文本 的 搜索 ,得 到 大 约 二 百 个 网 页 ,作为 结构 挖掘 的 基 
础 ,也 称 为 网 页 的 根 集 (Root Set of Page) 。 这 些 网 页 之 间 的 链接 不 是 特别 紧密 ,甚至 有 可 
能 没有 包括 与 搜索 词 相关 的 权威 网 站 ,因为 许多 权威 网 站 并 没有 把 人 们 常常 使 用 的 搜索 词 
作为 主题 词 ,但 在 搜索 到 的 网 页 的 根基 中 至 少 会 有 些 链接 可 以 找到 用 户 所 需要 的 页 面 。 结 
构 挖 掘 有 以 下 三 个 不 同 的 阶段 。 

(1) 用 基于 内 容 的 搜索 引擎 形成 文件 的 根 集 。 首 先 要 将 搜索 词 中 的 虚词 拿 到 ,去 掉 复 
数 和 动词 的 变化 形式 , 选 定 特定 的 搜索 策略 进行 搜索 。 得 到 的 结果 按 其 与 搜索 词 的 关联 程 
度 打 分 排序 ,通常 取 排 在 前 面 的 一 定数 量 的 页 面 。 

(2) 在 根 集 的 基础 上 建立 候选 集 。 首 先 要 将 根 集 页 面 链 出 去 的 所 有 页 面 形成 一 个 膨胀 
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的 集合 ,再 从 中 剔 出 只 起 导航 作用 的 链接 ,最 后 还 要 注意 避免 网 页 之 间 的 欺骗 链接 。 

(3) 根据 网 页 在 这 些 集合 中 的 分 量 来 划分 哪些 为 中 心 页 面 , 哪 些 为 权威 页 面 ,并 将 其 排 
序 。 这 个 阶段 同时 可 以 将 网 页 分 组 。 一 个 重要 的 中 心 网 页 常常 链接 许多 重要 的 权威 网 页 ; 
反 过 来 一 个 重要 的 权威 网 页 也 常常 被 链接 到 许多 重要 的 中 心 网 页 上 ,而 且 它 们 还 可 以 互相 
增强 ,互相 调整 其 重要 程度 。 


8.4.3 PageRank 


1998 年 对 Web 搜索 和 Web 链接 分 析 来 说 是 非常 重要 的 一 年 ,PageRank 和 HITS 算法 
都 是 在 这 一 年 被 提出 来 的 。 其 中 ,PageRank 算法 在 1998 年 4 月 举行 的 第 七 届 国 际 万 维 网 
大 会 (WWW7) 上 由 Stanford 大 学 的 Sergey Brin 和 Larry Page 提出 ,基于 这 种 算法 他 们 创 
立 了 搜索 引擎 Google。 而 HITS 算法 在 1998 年 1 月 举行 的 第 九 届 年 度 ACM-SUAM 离散 
算法 研讨 会 (SODA) 上 由 Jon Kleonberg 提出 。 实 际 上 这 两 种 算法 的 主要 思想 非常 相似 , 它 
们 之 间 的 不 同 之 处 在 后 来 演变 成 了 非常 巨大 的 区 别 。 从 这 一 年 开始 ,PageRank 逐渐 成 了 
Web 搜索 届 分 析 模 型 的 统治 者 ,这 一 部 分 要 归功 于 它 的 非 查询 相关 的 网 页 分 析 方 式 和 抵抗 
网 页 作弊 的 能 力 , 另 一 部 分 则 要 归功 于 Google 的 商业 成 功 。 下 面 对 这 两 个 比较 典型 的 算法 
逐一 介绍 。 

PageRank 算法 依赖 于 Web 的 自然 特性 , 它 利 用 Web 的 庞大 链接 结构 来 作为 单个 网 页 
质量 的 参考 。 本 质 上 ,PageRank 算法 将 网 页 X 指向 网 页 Y 的 链接 当 作 一 种 投票 行为 ,由 网 
页 X 投 给 网 页 Y。 然 而 ,PageRank 算法 并 不 只 是 考虑 网 页 的 得 票数 ,也 就 是 指向 该 网 页 的 
链接 数 , 它 也 会 分 析 那 些 投票 的 网 站 。 那 些 重要 网 站 投 出 的 选票 使 得 接收 这 些 选票 的 网 页 
更 加 重要 。 

1. PageRank 算法 

PageRank 是 一 种 静态 的 网 页 评级 算法 ,因为 它 为 每 个 网 页 离线 计算 PageRank 值 而 且 
该 值 与 查询 内 容 无 关 。 既 然 PageRank 算法 基于 社会 网 络 中 对 于 权威 的 度量 ,那么 每 个 网 
页 的 PageRank 值 就 可 以 作为 该 网 页 的 权威 值 。 我 们 现在 将 推导 PageRank 公式 。 首 先 解 
释 一 些 Web 领域 的 概念 。 

网 页 i 的 链 入 链接 (In-links): 从 其 他 网 页 指向 网 页 i 的 超 链接 。 通 常情 况 下 ,不 考虑 
来 自 同一 网 站 的 链接 。 

网 页 i 的 链 出 链接 (Out-links):; 从 网 页 指向 其 他 网 页 的 超 链 接 。 通 常情 况 下 ,不 考虑 
指向 同一 网 站 内 网 页 的 链接 。 

从 权威 的 视角 ,我 们 用 下 面 的 条 件 来 推导 出 PageRank 算法 。 

(1) 从 一 个 网 页 指向 另 一 个 网 页 的 超 链 接 是 一 种 对 目标 网 站 权威 的 隐 含 认可 。 这 就 是 
说 ,如 果 一 个 网 页 的 链 入 链接 越 多 则 它 的 权威 就 越 高 。 

(2) 指向 网 页 i 的 网 页 本 身 也 有 权威 值 。 一 个 拥有 高 权威 值 的 网 页 指向 i 比 一 个 拥有 
低 权威 值 的 网 页 指向 i 更 加 重要 。 也 就 是 说 ,如 果 一 个 网 页 被 其 他 重要 网 页 所 指向 ,那么 该 
网 页 也 很 重要 。 

根据 社会 网 络 中 的 等 级 权威 值 ,网 页 i 的 重要 程度 ( 它 的 PageRank 值 ) 由 指向 它 的 其 他 
网 页 的 PageRank 值 之 和 决定 。 由 于 一 个 网 页 可 能 指向 许多 其 他 网 页 ,那么 它 的 PageRank 
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值 将 被 所 有 它 所 指向 的 网 页 共享 。 请 注意 这 里 与 等 级 权威 的 区 别 , 等 级 权威 是 不 共享 的 。 
为 了 将 上 面 的 思想 公式 化 ,我 们 将 整个 Web 看 作 是 一 个 有 向 图 G=(V,E) ,其 中 ,V 是 
所 有 结 点 ( 即 网 页 ) 的 集合 ,而 已 是 所 有 有 向 边 ( 即 超 链 接 ) 的 集合 。 假 设 Web 上 所 有 网 页 
的 数 为 n( 即 n= 二 |V1)。 网 页 i( 用 PC) 表示) 的 PageRank 值 定义 如 下 : 
p= 2 (8-3) 


(DEE O; 


其 中 ,O; 是 网 页 j 的 链 出 链接 数目 。 根 据 数学 方法 ,可 以 得 到 一 个 及 个 线性 等 式 和 nn 个 未 
知 数 的 系统 。 我 们 可 以 用 一 个 和 矩阵 来 表示 所 有 的 等 式 。 用 P 代表 表示 PageRank 值 的 ” 维 
列 向 量 ,如 : 


P= (PO() ,PC2) ,+, POD))T (8-4) 
而 4 是 表示 图 的 邻接 矩阵 ,有 : 
元 二 冰 : ee ee 
0， 其 他 
我 们 可 以 写 出 一 个 有 个 等 式 的 系统 
P=A'P (8-6) 


这 是 一 个 特征 系统 (Eigensystem) 的 特征 等 式 , 其 中 ,P 的 解 是 相应 特征 值 (Eigenvalue) 
为 1 的 特征 向 量 (Eigenvector) 。 由 于 这 是 一 个 循环 定义 ,因此 需要 一 个 迭代 算法 来 解决 它 。 
在 某 些 条 件 ( 后 面 将 进行 简单 讨论 满足 的 情况 下 ,1 是 最 大 的 特征 值 且 PageRank 向 量 P 
是 主 特征 向 量 (Principal Eigenvector) 。 一 个 称 为 过 和 迭代 (Power Iteration) 的 数学 方法 可 以 
用 来 解 出 P。 

然而 ,由 于 Web 图 并 不 一 定 能 够 满足 这 些 条 件 , 因 此 等 式 P=47P 并 不 一 定 有 效 。 为 
了 介绍 这 些 条 件 以 及 改进 这 个 等 式 ,我 们 基于 马尔 可 夫 链 (Markovy Chain) ,重新 推导 该 
等 式 。 

在 马尔 可 夫 链 模型 中 ,每 个 网 页 或 者 说 网 络 图 中 的 每 个 结 点 都 被 认为 是 一 个 状态 。 一 
个 超 链 接 就 是 从 一 个 状态 到 另 一 个 状态 的 带 有 一 定 概率 的 转移 。 也 就 是 说 ,这 种 框架 模型 
将 网 页 浏览 作为 一 个 随机 过 程 。 它 将 一 个 网 页 浏览 者 随机 浏览 Web 的 行为 作为 马尔 可 夫 
链 中 的 一 个 状态 转移 。 我 们 用 O; 来 代表 每 个 结 点 i 的 链 出 链接 数 。 如 果 Web 浏览 者 随机 
单 击 网 页 i 中 的 链接 ,并 且 浏 览 者 既 不 单 击 浏览 器 中 的 “后 退 " 按 钮 也 不 直接 在 地 址 栏 中 输 
入 地 址 ,每 个 转移 的 概率 是 I/O;。 如 果 用 A 来 表示 状态 转移 概率 矩阵 ,可 以 得 到 如 下 的 
方 阵 


An 4 … A 
外 汪 he 2 机 i 
Ms An “ Ms 


As; 代 表 在 状态 i 的 浏览 者 (正在 浏览 网 页 i 的 浏览 者 ) 转 移 到 状态 j (浏览 网 页 7 的 概率 。 
A; 正如 等 式 (8-5) 中 定义 的 一 样 。 

如 果 给 出 一 个 浏览 者 在 每 个 状态 (网 页 ) 的 初始 概率 分 布 (Initial Probabilitv 
Distribution) 向量 Po 二 (po(1),po(2),…,po(H))T 以 及 一 个 nXn 的 转移 概率 矩阵 
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(Transition Probability Matrix)A ,可 以 得 到 


2 加 GD 一 1 (8 
i=1 


3 =1 (8-8) 


等 式 (8-8) 对 于 某 些 网 页 来 说 可 能 是 不 成 立 的 ,因为 这 些 网 页 可 能 没有 链 出 链接 。 如 
果 和 矩阵 A 满足 等 式 (8-8) ,就 可 以 称 A 是 一 个 马尔 可 夫 链 的 随机 矩阵 (Stochastie Matrix ) 。 
我 们 先 假设 4 是 一 个 随机 和 矩阵 ,然后 在 后 面 再 解决 它 不 是 随机 矩阵 等 情况 。 

在 一 个 马尔 可 夫 链 中 ,一 个 大 家 都 很 关注 的 问题 是 : 如 果 一 开始 给 出 一 个 初始 的 概率 
分 布 Po ,那么 n 步 转移 之 后 的 马尔 可 夫 链 在 每 个 状态 j 的 概率 是 多 少 ? 我 们 可 以 用 以 下 的 
公式 表示 在 一 步 后 (一 个 状态 转移 后 ) 系 统 (或 者 随机 浏览 者 ) 在 状态 j 的 概率 : 


P1(j) = DAy DP (8-9) 
其 中 ,Ai (1) 是 一 步 转移 后 从 i 到 j 的 概率 , 且 Ai (1) 二 Ai 。 我 们 写 出 一 个 矩阵 表示 它 : 
P, = ATP, (8-10) 
一 般 来 说 ,在 k 步 /& 次 转移 后 的 概率 分 布 是 : 
P = 4TP， tay 


等 式 (8-11) 与 等 式 (8-6) 非 党 类似。 我 们 达到 了 预期 的 目标 。 
根据 马尔 可 夫 链 的 各 定理 ,如 果 和 矩阵 A 不 可 约 (Irreducible) 以 及 是 非 周期 (Aperiodic) 
的 ,那么 由 随机 转移 矩阵 (Stochastic Transition Matrix)A 定义 的 有 限 马 尔 可 夫 链 具有 唯一 
的 静态 概率 分 布 (Stationary Probability Distribution)。 我 们 将 在 接 下 来 的 推导 中 定义 这 些 
数学 术语 。 
静态 概率 分 布 意味 着 经 过 一 系列 的 状态 转移 之 后 ,不 管 所 选择 的 初始 状态 Po 是 什么 ， 
Pi 都 会 收敛 到 一 个 稳定 的 状态 概率 向 量 x, 即 
limPs 一 区 (8-12) 
当 到 达 稳 定 状 态 时 ,有 已 = Pi 一 r, 于 是 x 一 4Tr, 其 中 ,r 是 47 特征 值 (Eigenvalue) 为 1 
的 主 特征 向 量 (Principal Eigenvector) 。 在 PageRank 算法 中 ,x 被 用 作 PageRank 向 量 P。 
于 是 ,再 次 得 到 了 等 式 (8-6) ,在 这 里 将 其 重 写 为 等 式 (8-13) ， 
P=AP (8-13) 
将 静态 概率 分 布 x 作为 PageRank 向 量 是 一 种 有 道理 并 且 相 当 直接 的 想法 ,因为 它 反映 了 
一 个 随机 浏览 者 访问 网 页 的 长 期 概率 。 如 果 一 个 网 页 被 访问 的 概率 高 那么 相应 它 的 权威 就 
应 该 高 。 
现在 回 到 现实 世界 中 的 Web 范畴 来 考虑 上 述 条 件 是 否 成 立 , 如 矩阵 A 是 否 是 随机 和 矩 
阵 以 及 它 是 否 不 可 约 和 是 否 非 周期 。 实 际 上 ,这 些 条 件 都 不 满足 。 因 此 ,我 们 需要 将 理想 情 
况 下 的 等 式 (8-12) 扩 展 , 以 便 得 到 一 个 “实际 的 PageRank 模型 ”。 我 们 现在 来 分 别 考虑 下 
面 的 每 个 条 件 。 
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首先 ,A 不 是 一 个 随机 (转移 ) 矩 阵 。 随 机 抢 阵 是 一 个 有 限 马尔 可 夫 链 的 转移 矩阵 , 它 的 
每 一 行 数据 都 是 非 负 实数 且 该 行 数据 之 和 应 该 为 1 (如 式 (8-8))。 这 要 求 每 个 Web 网 页 都 
应 该 至 少 有 一 个 链 出 链接 。 这 在 真实 的 Web 网 页 上 并 不 能 够 得 到 完全 满足 ,因为 有 很 多 网 
页 没有 链 出 链接 ,反映 到 转移 矩阵 A 上 ,表现 为 其 某 行 数 据 全 为 0。 这 种 页 面 被 称 为 悬垂 页 
(Dangling Pages)( 结 点 ) 。 

【 例 8-1】 图 8-5 展示 了 一 个 超 链接 图 的 例子 。 


图 8-5 一 个 超 链 接 图 的 例子 


如 果 假 设 Web 浏览 者 单 击 每 个 页 面 的 概率 是 完全 随机 ,能 够 得 到 下 面 的 转移 概率 
和 矩阵 : 


| 
0 2 过 0 0 0 
1 和 
z 0 0 0 0 
0 1 0 0 0 0 

A= 1 ii 本 (8-14) 
人 
0 0 0 0 0 0 
1 1 

0 0 0 pi 0 


举 个 例子 A 二 Ais 二 1/2, 因 为 结 点 1 有 两 个 链 出 链接 。 我 们 看 出 A 并 非 是 一 个 随机 
和 矩阵 ,因为 它 的 第 5 行 全 为 0, 也 就 是 说 ,页 面 5 是 一 个 悬垂 页 。 

我 们 可 以 用 多 种 方法 解决 这 个 问题 ,以 便 将 4 转化 为 一 个 随机 转移 矩阵 。 这 里 只 描述 
以 下 两 种 方法 。 

(1) 在 PageRank 计算 中 ,将 那些 没有 链 出 链接 的 页 面 从 系统 移 除 , 因 为 它们 不 会 直接 
影响 到 其 他 页 面 的 评级 。 而 那些 从 其 他 网 页 指向 这 些 页 面 的 链 出 链接 也 将 被 移 除 。 当 
PageRank 被 计算 出 来 后 ,这 些 网 页 和 指向 它们 的 链接 就 可 以 被 重新 加 入 进来 。 利 用 等 
式 (8-13) ,它们 的 PageRank 值 能 够 很 容易 被 计算 出 来 。 注 意 ,那些 被 移 除 链 接 的 网 页 的 转 
移 概 率 只 会 受到 轻微 而 非 巨大 的 影响 。 

(2) 为 每 个 没有 链 出 链接 的 页 面 i 增加 一 个 指向 所 有 其 他 Web 网 页 的 外 链 集 。 这 样 ， 
假设 是 统一 概率 分 布 的 情况 下 ,网 页 i 到 任何 其 他 网 页 的 概率 都 是 1/n。 于 是 ,我 们 就 可 以 
将 全 0 行 替 换 为 e/n, 其 中 ,e 是 一 个 全 1 的 n 维 向 量 。 

如 果 使 用 第 二 种 方法 , 即 给 页 面 5 加 上 一 个 指向 所 有 其 他 页 面 的 链接 集 ,从 而 使 A 变 
为 一 个 随机 和 矩阵 ,那么 就 能 得 到 : 
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1 
元 去 0 0 0 
1 1 
二 0 于 0 
2 0 
0 1 0 0 0 0 
A= 1 部 度 (8-15) 
和 二 天 -二 
3 0 33 
下 和 D1 
6 6 6 6 6 6 
时 齐 
| | 


下 面 假设 已 经 采取 了 任意 一 种 办 法 使 得 A 成 为 随机 和 矩阵 。 

其 次 ,A 不 是 不 可 约 (ireducible) 的 。 不 可 约 意 味 着 Web 图 G 是 强 连 通 的 。 

定义 8-1 强 连通 ”一 个 有 向 图 G 二 (V,E) 是 强 连 通 的 当 且 仅 当 对 每 一 个 u,vEV 的 结 
点 对 ,都 有 一 条 从 到 vw 的 路 径 。 

一 个 由 矩阵 A 表示 的 一 般 意义 上 的 Web 图 不 是 不 可 约 的 ,因为 对 于 某 一 个 结 点 对 
和 ww 来 说 ,可 能 没有 一 条 从 到 w 的 路 径 。 例 如 ,在 图 8-5 中 ,从 结 点 3 到 结 点 4 就 没有 任 
何 一 条 有 向 路 径 。 而 在 式 (8-15) 中 所 做 的 调整 也 不 能 确保 不 可 约 性 。 这 就 是 说 ,在 等 式 
(8-15) 中 ,仍然 没有 从 结 点 3 指向 结 点 4 的 有 向 路 径 。 这 个 问题 和 接 下 来 将 要 发 生 的 问题 
可 以 使 用 同一 种 策略 解决 。 

最 后 ,A 不 是 非 周 期 的 。 一 个 马尔 可 夫 链 中 的 周期 状态 i 意味 着 该 链 的 转移 需要 经 过 
一 个 有 向 环 。 

定义 8-2 非 周期 ”如 果 存 在 一 个 大 于 1 的 整数 ,使 得 所 有 从 状态 i 出 发 且 回 到 状态 i 
的 路 径 长 度 都 是 k 的 整数 倍 的 话 , 则 状态 i 就 是 周期 的 , 且 周 期 是 &k。 如 果 一 个 状态 不 是 周 
期 的 ,那么 它 就 是 非 周期 的 。 如 果 一 个 马尔 可 夫 链 中 的 所 有 状态 都 是 非 周期 的 ,那么 该 链 就 
是 非 周 期 的 。 

【 例 8-2】 图 8-6 展示 了 一 个 周期 K==3 的 马尔 可 夫 链 。 它 的 转移 矩阵 在 左边 给 出 。 
每 个 该 链 中 的 状态 的 周期 都 是 3。 例 如 ,如 果 从 状态 1 出 发 , 回 到 状态 1 的 路 径 只 能 是 1-2- 
3-1 或 者 该 路 径 的 多 次 重复 ,假设 重复 了 h 次。 于 是 任何 回 到 状态 1 的 路 径 都 要 经 过 3h 次 
转移 。 在 Web 上 ,有 很 多 类 似 的 情况 。 


(a 
001 1 1 
1 0 0 


图 8-6 一 个 周期 K==3 的 马 可 夫 链 


用 同一 种 策略 来 解决 上 面 的 两 个 问题 非常 简单 。 给 每 一 个 页 面 增加 指向 所 有 页 面 的 链 
接 ,并 且 给 予 每 个 链接 一 个 由 参数 4 控制 的 转移 概率 。 

这 样 转移 矩阵 变 成 了 不 可 约 的 ,因为 原来 的 图 显然 已 经 变 成 强 连 通 的 了 。 图 8-6 中 的 
情况 也 不 存在 了 ,因为 现在 从 状态 i 出 发 再 回 到 状态 i 有 了 各 种 可 能 长 度 的 路 径 , 于 是 它 也 
就 变 成 了 非 周 期 的 。 这 就 是 说 ,一 个 随机 浏览 者 为 了 到 达 一 个 状态 ,不 再 需要 经 过 一 个 固定 
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的 环 。 在 经 过 这 个 变化 过 程 后 ,得 到 了 一 个 改进 的 PageRank 模型 。 在 这 个 模型 中 ,在 任何 
一 个 网 页 上 ,一 个 随机 的 浏览 者 将 有 以 下 两 种 选择 。 

(1) 他 会 随机 选择 一 个 链 出 链接 继续 浏览 的 概率 是 4 。 

(2) 他 不 通过 单 击 链接 ,而 是 跳 到 另 一 个 随机 网 页 的 概率 是 1 一 4d。 

等 式 (8-16) 给 出 了 这 个 改进 的 模型 ， 

P=((1— DE/n+dA)P (8-16) 

其 中 ,E 是 eeT(e 是 全 1 的 列 向 量 ), 于 是 EE 是 一 个 全 为 1 的 nXn 方 阵 。 跳 到 一 个 特定 页 面 
的 概率 是 1/n。 其 中 ,n 是 整个 Web 图 中 的 结 点 数量 。 请 注意 式 (8-16) 假 设 A 已 经 被 转化 
为 一 个 随机 矩阵。 

【 例 8-3】 如 果 依 照 图 8-5 中 的 例子 和 等 式 (8-15)( 在 这 里 将 A 用 作 A), 扩 大 后 的 转 
移 矩 阵 是 ， 


| SO | 1 1 1 
60 15 60 60 6 100 
CA 遂 i 1 1 
15 60 12 60 6 60 
LE i i | | 1 
15 15 60 60 6 60 
(1—d)E/n+dA™ = (8-17) 
1 人 1 1 1 7 
60 60 60 60 6 15 
1 1 1 133 1 7 
60 60 60 60 6 15 
1 1 1 9 1 1 
60 60 60 60 6 60 


其 中 , (1 一 d)E/n 十 dA 7 是 一 个 随机 和 矩 阵 (Stochastic Matrix) (经 过 转 置 )。 根 据 上 面 的 讨论 ， 
它 也 是 不 可 约 的 和 非 周 期 的 。 在 这 里 取 d 二 0. 9。 
如 果 缩 放 等 式 (8-16) 以 使 得 erp 二 ,就 得 到 了 
P= (1—d)e+dA'™P (8-18) 
在 缩放 等 式 之 前 ,有 eTP==1( 例 如 ,如 果 我 们 回忆 起 P 了 是 马尔 可 夫 链 的 静态 概率 向 量 x, 那 
么 P(1) 十 P(2) 十 … 十 Pl(n) 二 1)。 缩 放 等 效 为 给 等 式 (8-13) 两 边 同 时 乘 以 n。 
这 就 给 出 了 计算 每 个 页 面 的 PageRank 值 的 公式 ,如 式 (8-19) 所 示 。 


POD) = (1—d) +dDAsP OY) (8-19) 
j=1 
这 个 公式 等 同 于 式 (8-20): 
PO =(1—d)+d 玉 区 (8-20) 


(DEE 
参数 d 称 为 衰减 系数 (Damping Factor) ,被 设 定 在 0 和 1 之 间 ,d 被 设 为 0. 85。 
PageRank 值 的 计算 可 以 采用 著名 的 客 迭 代 方 法 , 它 能 够 计算 出 特征 值 为 1 的 主 特征 向 
量 。 该 算法 是 比较 简单 的 ,在 图 8-7 中 给 出 。 算 法 可 以 由 任意 指派 的 初始 状态 开始 。 该 选 
代 在 PageRank 值 不 再 明显 变化 或 者 收敛 的 时 候 结 束 。 在 图 8-7 中 , 当 剩 余 向 量 的 1-norm 
小 于 预 设 的 阔 值 时 ,迭代 停止 。 注 意向 量 的 1-norm 就 是 其 所 有 分 量 绝对 值 的 和 。 


171 


(2 


商务 智能 与 数据 挖掘 ( 第 2 版 ) 


PageRank-Iterate(G) 
poe/n 
el 
Repeat 
Pi 一 (1 一 d)e 十 dAIP 1; 
&< 十 1; 
until|l |ps— pei |li<e 


Return P, 


图 8-7 PageRank 的 竹 迭 代 方 法 


因为 我 们 只 对 网 页 的 排序 等 级 感 兴 趣 , 实 际 的 收敛 是 不 必要 的 。 也 就 是 说 ,实际 上 只 需 
要 更 少数 量 的 迭代 。 通 过 引用 文献 了 解 到 ,在 一 个 拥有 3. 22 亿 个 链接 的 数据 库 上 ,该 算法 
只 用 了 52 个 迭代 便 达 到 了 一 个 可 以 接受 的 收敛 程度 。 

2. PageRank 算法 的 优点 和 缺点 

PageRank 算法 最 主要 的 优点 便 是 它 防 止 作 刺 的 能 力 。 一 个 网 页 之 所 以 重要 是 因为 指 
向 它 的 网 页 重要 。 一 个 网 页 的 拥有 者 很 难 将 指向 自己 的 链 入 链接 强行 添加 到 别人 的 重要 网 
页 中 ,因此 想 要 影响 PageRank 的 值 是 非常 不 易 的 。 然 而 ,仍然 有 相关 报道 显示 ,有 方法 能 
够 影响 PageRank 的 值 。 识 别 和 打击 作 次 是 Web 搜索 中 非常 重要 的 一 项 工作 。 

PageRank 算法 的 另 一 个 优点 是 其 是 从 全 局 出 发 的 度量 以 及 其 非 查 询 相 关 的 特性 。 也 
就 是 说 ,所 有 网 页 的 PageRank 值 是 离线 计算 并 被 保存 下 来 的 ,而 并 不 是 在 用 户 查 询 的 时 候 
才 进 行 计算 的 。 在 进行 搜索 的 时 候 , 只 需要 进行 一 个 简单 的 查询 ,然后 再 结合 其 他 策略 就 能 
够 进行 网 页 评级 了 。 所 以 ,在 搜索 的 时 候 非常 有 效率 。 以 上 两 个 优点 对 Google 的 巨大 成 功 
做 出 了 重大 的 贡献 。 

然而 , 非 查询 相关 的 特性 也 是 PageRank 算法 遭受 批评 的 主要 原因 之 一 。 它 不 能 分 辩 
网 页 在 广泛 意义 上 是 权威 的 还 是 仅仅 在 特定 的 查询 话题 上 是 权威 的 。Google 也 许 有 其 他 
的 办 法 来 解决 这 个 问题 ,当然 由 于 其 封闭 性 我 们 无 法 知晓 。 另 外 一 个 遭受 批评 的 特性 是 它 
没有 考虑 时 间 。 最 后 需要 重申 的 一 点 是 ,基于 链接 的 排序 算法 并 不 是 所 用 的 唯一 策略 ,搜索 
引擎 会 用 许多 其 他 策略 ,包括 信息 检索 方法 .启发 式 方法 、 经 验 参 数 等 。 然 而 它们 的 细节 都 
没有 发 布 过 。 另 外 也 需要 重申 的 是 ,PageRank 算法 不 是 唯一 的 基于 链接 的 静态 全 局 排序 
算法 ,所 有 主要 的 搜索 引擎 ,如 Bing 和 Yahoo!, 也 有 它们 自己 的 算法 。 研 究 人 员 也 提出 了 
一 些 其 他 不 是 基于 链接 的 排序 算法 ,例如 BrowseRank, 它 是 基于 从 用 户 搜索 日 志 建 立 的 浏 
览 图 的 。 


8.4.4 HITS 


HITS 即 Hypertext Induced Topic Search。 与 PageRank 算法 采用 的 静态 分 级 算法 不 
同 , HITS 是 查询 相关 的 。 当 一 个 用 户 提交 了 一 个 查询 请 求 以 后 , HITS 首先 展开 一 个 由 搜 
索引 擎 返回 的 相关 网 页 列表 ,然后 给 出 两 个 扩展 网 页 集合 的 评级 ,分 别 是 权威 等 级 
(Authority Ranking) 和 中 心 等 级 (Hub Ranking)。 超 链 和 页 面 内 容 的 关系 如 图 8-3 和 
图 8-4 所 示 。 
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HITS 算法 的 关键 思想 是 ,一 个 优秀 的 中 心 页 必然 会 指向 很 多 优秀 的 权威 页 ,一 个 优秀 
的 权威 页 必然 会 被 很 多 优秀 的 中 心 页 指向 。 也 就 是 说 ,权威 页 和 中 心 页 有 一 种 互相 促进 的 
关系 。 图 8-8 展示 了 一 个 密集 链接 的 中 心 网 页 和 权威 网 页 的 集合 (一 个 二 分 子 图 ) 。 


O 〇 O 〇 


Authority 网 页 。 Hub 网 页 
图 8-8 一 个 权威 网 页 和 中 心 网 页 的 密集 链接 的 集合 


下 面 首先 给 出 HITS 算法 ,同时 ,在 HITS 和 文献 计量 学 研究 领域 中 的 引文 耦合 与 同 引 
分 析 之 间 建 立 一 种 联系 。 这 样 就 能 讨论 HITS 的 缺点 和 优点 了 ,而 且 还 能 够 讨论 克服 这 些 
缺点 的 方法 。 

1. HITS 算法 

在 描述 HITS 算法 之 前 ,首先 描述 HITS 算法 是 怎样 收集 待 评级 的 页 面 的 。 给 出 一 个 
宽泛 的 查询 字段 ga, HITS 将 根据 如 下 描述 来 搜集 页 面 集合 。 

(1) 它 将 搜索 字段 g 送 至 搜索 引擎 系统 ,然后 收集 1( 在 多 数 文中 采用 t= 二 200) 个 排名 最 
高 的 网 页 ,这些 网 页 都 是 与 查询 字段 g 高 度 相关 的 。 这 个 集合 称 为 根 集 W。 

(2) 然后 它 通过 将 指向 W 内 部 的 网 页 或 者 W 内 部 网 页 指向 的 外 部 网 页 加 入 W 的 方式 
来 扩充 W。 这 将 得 到 一 个 更 大 的 集合 ,我 们 称 之 为 S$。 然 而 ,这 个 集合 可 能 相当 大 。 算 法 通 
过 限制 每 个 W 内 部 的 网 页 , 仅 允许 它们 最 多 将 (在 多 数 文中 采用 二 50) 个 指向 自己 的 网 
页 带 入 S 来 限制 S 的 大 小 。 集 合 S 被 称 为 基 集 。 

接着 HITS 对 S 内 部 的 每 个 网 页 进行 处 理 ,对 每 个 S 内 部 的 网 页 指定 一 个 权威 分 值 和 
一 个 中 心 分 值 。 假 设 待考 察 的 网 页 数目 为 2。 我 们 再 次 使 用 G=(V,E) 来 表示 S 的 有 向 链 
接 图 。V 是 网 页 集 ( 结 点 ) 而 EE 是 有 向 边 的 集合 (有 向 链接 )。 我 们 用 上 来 表示 图 的 邻接 
和 矩阵 。 


jy 并 
Ls = (8-21) 
0， 其 他 


每 个 网 页 i 的 权威 分 值 被 表示 为 a(i) ,而 中 心 分 值 被 表示 为 h(i)。 两 种 分 值 的 相互 增 
益 关系 可 以 被 表示 为 : 


aD) = DhO) (8-22) 
(DEE 

hD) = Dal) (8-23) 
(DEE 


将 它们 写成 矩阵 形式 ,我 们 用 a 来 表示 所 有 权威 分 值 的 列 向 量 ,a 二 (a(1),a(2),…， 
a(n))", 用 hh 来 表示 所 有 中 心 分 值 的 列 向 量 ,h 二 (h(1).h(2),… ,h(n))™， 

a (8-24) 

h=La (8-25) 
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计算 权威 分 值 和 中 心 分 值 的 方法 基本 上 和 计算 PageRank 分 值 所 采用 的 短 迭 代 方 法 相同 。 
如 果 使 用 as 和 hs 来 表示 第 k 次 迭代 中 的 权威 分 值 和 中 心 分 值 ,那么 得 到 最 终 解决 方案 的 迭 
代 公式 是 


as = LiLar (8-26) 
h: = LL™he (8-27) 

初始 情况 为 
a = ho = (1,1,.,1) (8-28) 


注意 等 式 (8-26)( 或 者 等 式 (8-27)) 没 有 使 用 中 心 向 量 ( 或 者 权威 向 量 ) ,因为 我 们 用 公 
式 (8-24) 和 式 (8-25) 进 行 了 替换 。 
在 每 次 迭代 以 后 ,数值 都 要 经 过 归 一 化 (保持 它们 足够 小 ) 处 理 , 于 是 
了 一 1 (8-29) 


Dh | (8-30) 

图 8-9 给 出 了 HITS 的 竹 迭 代 算法 。 当 剩余 向 量 的 1-norm 小 于 某 些 向 量 e。 和 6 时 和 

代 终 止 。 因 此 ,该 算法 在 平衡 时 得 到 了 主 特征 向 量 ,这 个 和 PageRank 算法 中 一 致 。 拥 有 更 

高 权威 值 的 和 更 高 中 心 值 的 网 页 表明 它们 分 别 是 好 的 权威 页 和 好 的 中 心 页 。HITS 将 选择 
一 些 中 心性 和 权威 性 评级 最 高 的 网 页 ,将 它们 返回 给 用 户 。 


HITS-Iterate(C) 
ao< 一 ho< 一 (1,1,… 1); 
Re1 
Repeat 
ae—L'Laris 
heLLTh, 1 s 
qa/|larll; 
hh /| lh ll 
untill |as —asi | |i <e, and | Ih —hei | 1 <e, 


Returna, and h, 


图 8-9 ”基于 等 迭代 的 HITS 算法 


虽然 HITS 总 是 收敛 的 ,但 是 仍 存在 一 个 问题 , 即 在 限制 (收敛 ) 权 威 和 中 心 向 量 时 的 单 
一 性 问题 。 现 在 有 人 已 经 发 现在 某 些 特定 的 图 中 ,不 同 初始 设置 ,在 经 过 短 和 迭代 后 会 得 到 不 
同 的 权威 向 量 和 中 心 向 量 。 其 中 某 些 结果 可 能 是 不 一 致 的 或 是 错 的 。Farahat 等 人 给 出 了 
几 个 这 样 的 例子 。 这 个 问题 的 关键 是 可 能 会 有 重复 的 主要 向 量 ( 几 个 特征 值 相 同 而 且 都 是 
主 特征 向 量 ) 出 现 , 这 是 由 LL( 相 应 的 LL"') 是 可 约 的 造成 的 。 第 一 种 PageRank 的 解决 方 
法 (等 式 (8-13)) 也 存在 这 种 问题 。 然 而 ,PageRank 的 发 明 者 找到 了 避免 这 个 问题 的 方法 。 
相应 地 ,PageRank 中 的 解决 手段 也 可 以 被 利用 到 HITS 中 来 。 

2. 寻找 其 他 的 特征 向 量 

图 8-9 中 给 出 的 HITS 算法 计算 出 了 主 特 征 向 量 , 该 向 量 某 种 程度 上 表示 了 由 搜索 内 


第 8 章 ”Web 挖掘 技术 


容 定义 的 图 G 中 ,最 密集 连接 在 一 起 的 权威 结 点 和 中 心 结 点 。 然 而 ,在 某 些 情况 下 ,我 们 可 
能 对 在 相同 页 面 基 集 之 间 寻 找 密 集 链接 的 权威 结 点 和 中 心 结 点 的 集合 感 兴趣 。 每 个 这 样 的 
集合 都 可 能 和 搜索 话题 有 关 , 但 在 图 G 中 它们 又 是 完全 分 离 的 。 例 如 

(1) 搜索 的 字 串 可 能 拥有 几 种 差别 很 大 的 含义 使 得 查询 变 得 模糊 ,例如 ,“jaguar” 这 个 
单词 可 能 表示 一 种 猫 科 动物 或 是 一 种 轿车 。 

(2) 搜索 的 字符 串 可 能 在 不 同 社区 中 被 当 作 某 个 话题 的 术语 ,例如 “classification”。 

(3) 搜索 的 字符 串 可 能 代表 一 个 高 度 分 化 的 话题 ,从 而 牵扯 到 某 些 相互 之 间 不 大 有 可 
能 有 关联 的 组 织 , 例 如 “abortion”。 

在 每 个 上 述 例子 中 ,相关 网 页 都 能 够 自然 地 被 分 到 几 个 簇 中 ,或 者 叫 作 社区 
(Communities) 。 一 般 来 说 ,排名 最 高 的 权威 页 和 中 心 页 代表 了 主要 的 簇 (或 者 说 是 主要 的 
社区 )。 稍 小 一 点 儿 的 簇 (或 者 说 是 社区 ) ,在 像 图 8-8 这 样 的 二 分 子 图 中 也 有 表示 ,它们 可 
以 通过 计算 非 主 特征 向 量 得 到 。 计 算 非 主 特征 向 量 所 采用 的 方法 为 正 交 迭代 (Orthogonal 
Iteration) 或 者 QR 迭代 (QR Iteration) ,这 两 种 方式 与 曙 迭 代 类 似 。 我 们 将 不 讨论 这 些 方法 
的 细节 。 

3. 寻 同 引 分 析 和 文献 耦合 的 关系 

权威 页 和 中 心 页 在 计量 引用 领域 有 相对 应 的 概念 。 一 个 权威 页 就 像 是 一 个 有 影响 力 的 
研究 论文 ,将 会 被 许多 后 继 论文 引用 。 一 个 中 心 页 就 像 是 一 个 调查 论文 一 样 , 它 将 引用 许多 
其 他 论文 (包括 很 多 有 影响 力 的 文章 ) 。 毫 无 疑问 ,权威 性 和 中 心性 ,以 及 同 引 分 析 和 引文 耦 
合 之 间 存 在 某 种 关系 。 

回忆 起 前 面 提 到 的 页 面 i 和 页 面 ) 的 同 引 分 析 指 数 ,我们 用 Cj 来 表示 , 它 可 以 通过 如 
下 的 计算 得 到 : 


Cs = DP LsLy = (LL)s (8-31) 


这 说 明了 HITS 算法 中 的 权威 矩阵 (LTL) 实 际 上 就 是 Web 范畴 中 的 同 引 分 析 和 矩阵 。 
同样 ,前 面 提 到 的 页 面 i 和 页 面 j 的 引文 耦合 程度 ,我 们 用 By 表示 ,可 以 按 如 下 公 
计算 
Bi = bp = (8-32) 


这 说 明了 HITS 中 的 中 心 矩 阵 (LLT) 就 是 Web 范畴 中 的 引文 耦合 矩阵 。 

4. HITS 算法 的 优点 和 缺点 

HITS 的 主要 优点 是 它 根据 搜索 内 容 来 为 网 页 评级 ,这 样 它 就 能 提供 更 加 相关 的 权威 
页 和 中 心 页 。 这 种 评级 方法 也 可 以 结合 其 他 基于 信息 获取 的 评级 方式 。 然 而 ,HITS 也 有 
几 个 缺点 。 

(1) 它 没有 像 PageRank 那样 好 的 反 作 兹 能 力 。 在 自己 的 网 页 上 添加 大 量 指向 权威 网 
页 的 链接 能 够 很 容易 影响 到 HITS 算法 。 这 能 够 显著 增加 网 页 的 中 心性 分 值 。 因 为 中 心性 
和 权威 性 是 互相 关联 的 ,于 是 这 样 做 也 能 够 影响 到 权威 性 分 值 。 

(2) 另外 一 个 问题 是 话题 漂移 问题 。 在 扩充 根 集 的 过 程 中 ,该 算法 很 容易 将 一 些 与 所 
搜索 话题 无 关 的 网 页 (包括 中 心 页 与 权威 页 ) 加 入 到 基 集 中 去 , 即 那些 被 根 集中 的 页 面 所 指 
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向 ,实际 上 却 和 搜索 话题 无 关 的 页 面 ,或 者 是 指向 根 集中 的 页 面 ,但 是 与 话题 无 关 的 页 面 。 
造成 这 种 情况 的 原因 主要 是 ,人 们 会 出 于 各 种 原因 添加 链接 ,当然 , 作 疾 也 是 其 中 的 原因 
沁 二 = 

(3) 搜索 时 计算 也 是 一 个 主要 的 不 足 之 处 。 寻 找 根 集 ,扩展 根 集 ,然后 计算 特征 向 量 都 
是 非常 花 时 间 的 操作 。 

多 年 来 ,众多 研究 者 都 在 尝试 解决 上 面 的 问题 。 我 们 将 在 下 面 进行 简单 介绍 。 一 些 研 
究 者 提出 ,对 Web 图 的 拓扑 结构 进行 微小 的 改动 能 够 明显 改变 最 终 得 到 的 权威 和 中 心 向 
量 。 微 小 的 扰动 对 于 PageRank 算法 来 说 几乎 没有 影响 ,在 这 点 上 它 比 HITS 要 稳定 。 这 
要 归功 于 PageRank 的 随机 跳 转 步骤 。Ng 等 人 提出 将 一 种 类 似 的 随机 跳 转 步骤 (随机 跳 转 
到 基 集 的 概率 为 4) 加 入 到 HITS 算法 中 ,并 证 明 它 能 够 显著 地 提高 HITS 的 稳定 性 。 
Lempel 和 Moran 提出 了 SALSA, 即 a stochastic algorithm for link structure analysis( 链 接 
结构 分 析 的 随机 算法 ) 。SALSA 结合 了 HITS 和 PageRank 算法 的 某 些 特征 来 改进 对 于 中 
心性 和 权威 性 的 计算 。 它 将 问题 投影 到 两 个 马尔 可 夫 链 上 ,一 个 权威 性 马尔 可 夫 链 和 一 个 
中 心性 马尔 可 夫 链 。SALSA 对 作 浴 的 免疫 性 要 好 一 些 , 因 为 权威 性 分 值 和 中 心性 分 值 之 
间 的 耦合 比 以 前 宽松 。 

Bharat 和 Henzinger 提出 了 一 个 对 付 网 站 之 间 的 偏 祖 链接 关系 的 方法 。 所 谓 偏 祖 链接 
就 是 一 个 网 站 上 很 多 网 页 都 指向 另 一 个 网 站 上 的 单一 网 页 。 这 种 手段 增加 了 第 一 个 网 站 上 
网 页 的 中 心性 和 第 二 个 网 站 上 网 页 的 权威 性 。 同 样 ,对 中 心性 也 可 以 采用 相同 的 手段 。 这 
些 链 接 可 能 都 是 由 同一 个 人 建立 的 ,因此 它们 被 称 为 “ 偏 祖 的 (Nepotistic) ”链接 ,它们 被 用 
来 增加 目标 页 的 评级 。 指 出 了 可 以 为 链接 增加 权重 来 解决 这 个 问题 。 也 就 是 说 ,如 果 有 上 
条 边 从 第 一 个 网 站 的 网 页 中 发 出 ,指向 第 二 个 网 站 上 的 单一 网 页 ,我 们 就 把 每 个 边 的 权威 权 
重 赋 为 1。 如 果 有 二 条 边 从 第 一 个 网 页 上 的 单一 页 指向 第 二 个 网 站 上 的 一 个 网 页 集 ,我 
们 就 将 每 条 边 的 中 心 权 重 设 为 1/L。 这 些 权重 将 被 用 在 权威 性 和 中 心性 的 计算 中 。 然 而 ， 
现在 又 出 现 了 多 个 网 站 之 间 ( 大 于 两 个 ) 的 更 加 复杂 的 作弊 手段 。 

在 解决 HITS 的 话题 漂移 问题 时 , 现 有 的 手段 主要 是 基于 在 根 集 扩 张 时 对 网 页 内 容 进 
行 相似 性 比较 。 正 如 这 样 的 描述 ,如 果 一 个 扩展 的 网 页 在 内 容 相 似 性 (基于 余弦 相似 性 ) 上 
和 根 集合 里 的 网 页 差别 过 大 , 它 将 被 放弃 。 余 下 的 链接 仍然 按照 相似 性 赋予 权重 。 曾 有 人 
提出 ,利用 链接 锚 文 本 (Anchor Text) 和 搜索 话题 之 间 的 相似 性 来 度量 链接 的 权重 (不 像 在 
HITS 中 只 是 给 每 个 链接 权重 )。 另 有 人 更 进一步 利用 网 页 的 DOM (Document Object 
Model) 树 形 结构 来 找 出 和 话题 联系 更 加 紧密 的 块 或 者 子 树 ,而 不 是 将 网 页 作为 一 个 整体 来 
考察 它 和 搜索 内 容 之 间 的 关系 。 这 种 方法 对 于 处 理 互联 网 上 日 渐 增 加 的 多 话题 网 页 很 有 帮 
助 。 在 这 个 领域 的 最 新 成 果 是 基于 块 的 链接 分 析 (Block-based Link Analysis) , 它 将 一 个 
Web 页 面 分 成 若干 个 不 同 的 块 , 根 据 每 个 块 在 页 面 中 的 位 置 和 其 他 信息 ,赋予 它 一 个 权重 。 
这 些 权 重 在 HITS 计算 (也 包括 PageRank 计算 ) 中 被 用 来 度量 链接 的 权重 。 这 将 显著 减少 
那些 非 重 要 链接 对 分 析 结 果 造 成 的 影响 , 正 是 这 些 非 重要 链接 造成 了 话题 漂移 ,有 些 链接 的 
目的 甚至 是 为 了 作 整 。 


8.4.5 两 种 算法 的 比较 
通过 理论 分 析 和 算法 实际 运行 结果 比较 ,可 以 得 到 两 种 算法 的 区 别 。 
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(1) PageRank 是 对 WWW 的 整体 分 析 , 通 过 模拟 WWW 上 的 随机 游 动 对 每 一 个 网 页 
计算 其 PageRank 值 。 因 此 该 算法 是 独立 于 用 户 查 询 的 ,可 以 对 用 户 要 求 产生 快速 的 响应 。 
HITS 算法 是 对 WWW 的 局 部 分 析 , 是 根据 特定 的 查询 产生 不 同 的 根 集 , 然 后 计算 网 页 的 
Authority 值 和 Hub 值 。 该 算法 是 依赖 于 用 户 查 询 的 ,实时 性 差 。 

(2) HITS 算法 存在 “主题 漂移 ?的 现象 ,如 用 户 在 查询 “有 机 化 学 ?时 ,由 于 算法 中 需要 
对 初次 检索 结果 的 根 集 扩充 成 基 集 ,最 终 的 检索 结果 总 会 包含 大 量 的 有 关 “ 化 学 ”的 站 点 。 
因此 ,HITS 适合 于 宽 主 题 的 查询 ,而 PageRank 则 较 好 地 克服 了 “主题 漂移 ”的 现象 。 

(3) 实际 应 用 中 ,由 S 生成 工 的 时 间 开 销 是 很 昂贵 的 ,需要 下 载 和 分 析 S 中 每 个 网 页 
的 所 有 链接 ,并 且 排 出 重复 的 链接 。 一 般 工 比 S 大 很 多 ,由 工 生成 有 向 图 也 很 费时 ,需要 分 
别 计 算 网 页 的 A/ 互 值 ,计算 量 HITS 比 PageRank 算法 大 。 

因而 可 以 看 出 ,PageRank 算法 比 HITS 算法 有 一 定 的 优势 ,也 成 为 商业 应 用 中 最 成 功 
的 一 种 算法 。 虽 然 PageRank 算法 已 经 成 功 地 用 于 Google 搜索 引擎 中 ,但 是 有 一 个 问题 仍 
然 存在 , 那 就 是 网 页 中 的 每 个 链接 的 重要 性 并 非 都 是 一 样 的 , PageRank 算法 并 没有 进行 
区 分 。 


8.4.6 ”Web 结构 挖掘 应 用 


Web 结构 挖掘 主要 应 用 于 WWW 上 的 信息 检索 领域 ,如 前 面 所 介绍 的 集中 算法 都 是 
利用 网 页 间 超 链接 信息 对 搜索 引擎 的 检索 结果 进行 相关 度 排序 ,另外 ,在 信息 检索 领域 的 应 
用 还 包括 寻找 个 人 主页 和 相似 性 网 页 等 。 

除 此 之 外 , Web 结构 分 析 可 以 提高 搜索 蜘蛛 在 网 上 怜 行 的 效率 ,其 搜索 策略 是 沿 着 超 
链接 优先 疏 行 具有 最 高 PageRank 值 的 网 页 ,从 而 使 其 以 最 短 的 路 径 , 最 少 的 时 间 发 现 最 多 
最 新 的 文档 信息 。 

Web 主机 的 镜像 似 的 搜索 引擎 为 镜像 网 页 建立 了 大 量 重 复 的 索引 ,不 仅 造成 了 存储 空 
间 的 浪费 ,而 且 直 接 导致 了 检索 结果 的 重复 。 由 于 近似 镜像 Web 页 的 主机 在 链接 结构 上 非 
常 近似 ,因此 Bharat 等 通过 将 IP 地 址 分 析 、URL 模式 分 析 和 链接 结构 分 析 相 结合 的 方法 ， 
可 以 检测 大 量 的 近似 镜像 Web 页 。 近 似 镜像 检测 算法 已 经 被 成 功 地 应 用 于 消除 “搜索 引 
擎 ”系统 的 重复 网 页 ,成 为 提高 搜索 引擎 服务 质量 的 关键 技术 之 一 。 

另外 , Web 结构 挖掘 还 可 以 对 Web 页 进行 分 类 ,预测 用 户 的 链接 使 用 及 链接 属性 的 可 
视 化 ,对 各 个 企业 搜索 引擎 索引 的 Web 页 数量 进行 统计 分 析 等 。 最 后 再 介绍 一 些 关于 
Web 站 点 的 超 链 结构 信息 的 应 用 。 

(1) 超 链 结构 可 以 用 于 指导 Robot 的 站 点 信息 收集 工作 。Robot 是 WWW 搜索 引擎 
收集 文档 索引 信息 的 主要 手段 , 它 可 以 沿 超 链 自动 地 浏览 Web 站 点 。 根 据 前 面 的 讨论 ,为 
了 以 最 小 的 代价 发 现 最 多 的 文档 ,Robot 应 该 沿 着 正 向 超 链 浏览 Web 站 点 。 

(2) 超 链 结构 可 以 用 于 帮助 站 点 识别 站 点 内 部 的 各 个 独立 的 信息 ( 子 ) 系 统 。 大 家 知 
道 , 一 个 Web 站 点 可 以 理解 为 一 个 由 许多 相对 独立 的 ( 子 ) 系 统 嵌 套 而 成 的 信息 系统 ,这 些 
信息 ( 子 ) 系 统 的 原始 结构 可 以 呈现 出 一 种 层次 性 ,但 是 由 于 一 个 文档 中 可 以 包含 指向 任意 
已 知 文档 的 超 链 ,而 一 个 Web 站 点 的 资源 通常 是 十 分 模糊 的 。 正 向 超 链 体现 了 文档 之 间 的 
层次 结构 关系 ,如 果 已 知 一 个 信息 ( 子 ) 系 统 的 入 口 ,那么 就 可 以 把 ( 子 ) 系 统 的 范围 理解 为 从 
入 口 沿 正 向 超 链 可 达 的 站 点 文档 集 。 
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(3) 超 链 结构 可 以 用 于 改善 搜索 引擎 的 查询 质量 ,一 般 而 言 ,搜索 引擎 的 查询 结果 通常 
是 比较 庞大 的 ,许多 内 容 是 与 查询 条 件 无 关 的 信息 。 为 了 方便 用 户 的 理解 和 利用 ,查询 结果 
的 排列 次 序 是 十 分 重要 的 。 根 据 前 面 的 讨论 Web 站 点 内 的 文档 位 于 不 同 的 层次 上 ,层次 
越 高 的 文档 通常 越 重 要 。 因 此 除了 其 他 因素 ,如 相关 程度 等 ,文档 的 层次 也 是 查询 结果 排序 
的 一 个 重要 依据 。 在 其 他 条 件 相同 或 相似 的 情况 下 ,文档 的 层次 越 高 , 它 的 次 序 就 应 该 越 
靠 前 。 


8.5 Web 使 用 挖掘 


Web 使 用 挖掘 一 般 有 4 个 过 程 : 数据 预 处 理 (Data Preprocessing) ,模式 发 现 (Pattern 
Discovery) ,模式 分 析 (Pattern Analysis) 及 模式 应 用 (Pattern Application ) 。 


8.5.1 Web 使 用 挖掘 数据 预 处 理 


Web 使 用 挖掘 首先 要 对 挖掘 数据 进行 预 处 理 , 其 目标 是 将 包含 在 多 种 数据 源 中 的 信息 
转化 为 合适 的 数据 挖掘 和 模式 发 现 所 必需 的 数据 抽象 概念 ,然后 在 事物 数据 库 上 实施 挖掘 
算法 ,以 期 最 终 获 得 有 价值 的 规律 。 预 处 理 主要 对 用 户 访 问 日 志 进 行 数据 清洗 (Data 
Cleaning) ,用户 唯 一 性 识别 (User Identification) ,用户 会 话 识别 (Identify User Session) .路 
径 补 充 (Path Completion) 和 事务 识别 (Transaction Identification) 等 处 理 。 

1. 数据 源 收 集 

Web 用 户 访问 数据 可 以 从 三 方面 收集 : 服务 器 端 (Server) .客户 端 (Client) 和 代理 端 
(Proxy) ,主要 是 服务 器 端的 数据 。 网 站 服务 器 中 一 般 有 三 种 类 型 的 日 志文 件 用 来 记录 用 
户 的 访问 行为 : Access Log,Refer Log 及 Agent Log, 有 的 系统 还 记录 有 Cookie Log, 除 此 
之 外 还 有 用 户 提交 的 查询 信息 、 注 册 信 息 和 站 点 的 结构 信息 等 。 

(1) Access Log。 访 问 日 志文 件 , 详 细 记 录 了 每 个 用 户 的 访问 行为 ,是 Web 使 用 挖掘 
的 主要 数据 源 。 

(2) Refer Log。 记 录 了 用 户 请 求 页 面 信息 的 情况 ,用 户 什 么 时 间 访 问 以 及 访问 路 径 的 
形式 ,Refer Log 可 用 于 用 户 识别 ,路径 补充 等 。 

(3) Cookie Log。 由 Web Server 产生 的 标记 号 ,并 由 客户 端 持 有 ,用 于 识别 用 户 和 用 
户 会 话 。 虽 然 通过 用 户 的 标记 号 ,易于 识别 用 户 ,但 是 由 于 HTTP 的 无 序 性 和 用 户 的 隐私 
问题 ,跟踪 用 户 依然 不 是 一 件 易 事 。 另 外 ,使 用 Cookie Log 要 经 用 户 同意 。 

这 些 数据 大 致 可 分 为 以 下 几 类 。 

(1) 内 容 数 据 。 用 户 在 网 页 上 看 到 和 使 用 的 真实 数据 ,主要 是 文本 和 图 像 。 

(2) 结构 数据 。 描 述 网 页 内 容 如 何 组 织 的 数据 。 页 内 的 结构 可 用 HTML、XML 表示 
为 树 形 结构 ,HTML 标志 称 为 树 的 根 ; 页 间 结 构 可 用 链接 不 同 网 页 的 超 链 接 来 表示 。 

(3) 使 用 数据 。 描 述 网 页 使 用 模式 的 数据 ,如 IP 地 址 `URL、 网 页 引用 、 访 问 时 间 和 日 
期 等 ,表示 了 用 户 的 行为 模式 。 典 型 的 使 用 数据 来 自 服务 器 日 志 。 

(4) 用 户 资 料 (Profile)。 有 关 Web 站 点 用 户 的 统计 信息 ,包括 用 户 注 册 信 息 和 个 人 资 
料 , 如 用 户 名 ,学 历 、 职 务 \ 年 龄 .收入 .个 人 爱好 等 。 
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2. 使 用 数据 预 处 理 

具体 过 程 包括 数据 清理 .用 户 识别 .会话 识 别 .路 径 补充 (完善 ) 和 事务 识别 等 。 

(1) 实际 系统 中 的 数据 一 般 都 具有 不 完全 性 、 元 余 性 和 模糊 性 ,要 使 挖掘 内 核 更 有 效 地 
挖掘 出 知识 ,就 必须 为 它 提供 干净 ,准确 、 简 洁 的 数据 。 数 据 清洗 就 是 删除 与 事务 数据 库 无 
关 的 数据 ,或 者 说 删除 Web 服务 器 日 志 中 与 挖掘 算法 无 关 的 数据 。 主 要 删除 以 下 三 类 
内 容 。 

@ 图 片 .框架 等 非 用户 请 求 逻 辑 单位 。 用 户 请 求 的 是 一 个 整体 页 面 ,而 服务 器 记录 的 
是 下 传 到 客户 端的 一 个 个 文件 流 。 因 此 需要 结合 网 站 结构 图 来 过 滤 和 抽取 浏览 页 面 。 

@ Web Robot 的 浏览 日 志 记 录 。 因 为 Web Robot 对 网 站 的 浏览 不 带 任何 感情 色彩 ， 
许多 Web Robot 的 代理 值 与 通常 的 浏览 器 不 一 样 ,可 通过 检查 日 志 代理 清除 这 些 记 录 , 还 
可 以 通过 对 网 站 的 定时 重复 请 求 来 标注 出 Web Robot。 

@@ 噪声 和 错误 信息 。 虽 然 这 些 信 息 中 可 能 包含 着 某 些 有 用 信息 (如 测定 网 站 内 容 的 完 
整 性 .链接 的 正确 性 等 ) ,但 对 浏览 模式 发 现 来 说 输入 的 信息 必须 是 正确 的 。 

(2) 识别 用 户 遵循 以 下 三 条 启发 式 原则 。 

Q@ 如 果 用 户 的 IP 地 址 不 同 则 认为 是 不 同 的 用 户 。 

@ 如 果 IP 地 址 相同 但 浏览 器 软件 或 操作 系统 不 同 , 则 认为 是 不 同 的 用 户 。 

@ 通过 Refer Log 和 站 点 的 拓扑 结构 图 构建 每 个 用 户 的 访问 路 径 ,如 果 请 求 的 页 面 和 
以 前 访问 的 所 有 页 面 不 存在 直接 的 超 链 接 关 系 , 则 认为 具有 相同 IP 地 址 的 用 户 是 不 同 的 用 
户 。 表 8-2 对 识别 用 户 的 方法 进行 了 归纳 ,并 评价 了 其 优 缺 点 。 


表 8-2 识别 用 户 的 方法 


隐私 
方 法 描 述 涉及 优点 缺 ”点 
程度 
下 地 址 和 代理 | 假定 每 一 个 IP/ 代 理 | [| 不 需要 特殊 附加 的 技 | 不 能 保证 用 户 与 IP 和 代理 
(Agent) 地 址 对 应 一 个 用 户 ”| 术 , 非 常 容易 实施 一 一 对 应 
使 用 动态 方法 产生 没有 考虑 短 时 间 内 用 户 重复 
嵌入 SessionID | ID 号 ,并 嵌入 用 户 访 | 较 低 | 容易 实行 ,与 IP 无 关 | 访问 的 情形 ,只 有 在 动态 网 
间 请 求 中 站 下 适用 
用 户 不 一 定 愿意 注册 , 且 每 
b 一 个 
注册 用 户 要 注册 并 登录 中 hha 人 用 | 次 访问 都 登录 。 另 外 , 几 个 
人 可 以 用 一 个 用 户 注册 
要 在 客户 端 写 入 | 用 户 如 果 打 不 开 Cookie 先 
Cookie 日 志 高 | 可 以 跟踪 重复 访问 
ookie 日 标志 较 高 | 可 以 跟踪 重复 访问 项 就 无 法 收集 信息 
在 客户 端 浏览 器 上 
六 [J] » 3 
人 装 一 个 特殊 的 程序 ，| 高 “| 可 以 得 到 对 一 个 网 站 ae 
。 向 服务 器 送 回 浏览 | | 的 精确 访问 情况 0 人 
客 利用 
的 信息 
由 浏览 器 记录 用 户 可 以 获得 用 户 对 互联 
修改 浏览 常 高 意 合 
和 访问 的 数据 非常 高 | 网 的 整体 访问 情况 。 | 需要 用 户 愿 意 合作 
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(3) 会 话 识 别 。 会 话 是 指 同 一 用 户 连续 请 求 的 页 面 , 不 同 用 户 访问 的 页 面 属于 不 同 的 
会 话 。 用 户 识别 出 来 之 后 ,就 要 把 每 一 个 用 户 在 一 段 时 间 内 的 点 击 流 ( 所 有 的 请 求 页 面 ) 分 
解 为 单个 会 话 。 最 简单 的 方法 就 是 利用 时 间 戳 (Timeout), 如 果 用 户 访问 的 时 间 差 超过 
Timeout 则 认为 用 户 开 始 了 一 个 新 的 会 话 。 通 常 默认 的 时 间 阔 值 为 30min, 但 Pitktow 的 
实验 证 明 ,比较 合理 的 时 间 阅 值 是 25. 5min。 如 果 要 在 每 个 URL 中 组 入 会 话 标 识 , 就 需要 
由 内 容 服 务 器 来 设 定 和 划分 会 话 。 用 户 识别 和 会 话 识别 都 要 受到 本 地 浏览 器 缓存 .代理 服 
务 器 和 防火 墙 等 影 

(4) 路 径 补充 。 由 于 客户 存在 客户 端 缓存 , 当 用 户 使 用 浏览 器 的 后 退 功能 时 会 产生 路 
径 信息 不 完整 的 描述 。 解 决 这 一 类 问题 的 方法 类 似 于 用 户 识别 ,如 果 一 个 页 面 请 求 信 息 与 
该 用 户 上 次 请 求 的 页 面 没有 直接 的 链接 关系 ,可 以 查看 参考 日 志文 件 来 决定 这 个 页 面 来 自 
于 哪个 页 面 的 链接 。 

总 体 思 路 是 判断 两 个 相 邻 的 页 面 之 间 是 否 存在 参 引 关系 ,所 谓 参 引 关系 就 是 指 从 一 个 
页 面 上 的 链接 可 以 访问 到 另 一 个 页 面 。 若 没有 参 引 关系 ,就 需要 推断 。 假 定 相 邻 页 面 中 间 ， 
后 一 个 页 面 为 当前 页 面 ,这 里 就 有 两 种 可 能 性 : 四 需要 推理 的 页 面 在 该 用 户 访问 会 话 期 间 
以 前 面 页 面 为 参 引 页 面 的 页 面 集中 间 ; @ 需 要 推理 的 页 面 在 前 面 页 面 的 参 引 页 面 中 间 。 因 
此 ,问题 就 转换 为 在 以 前 面 页 面 为 参 引 页 面 的 页 面 集 与 后 一 个 页 面 的 参 引 页 面 集 之 间 的 交 
集 , 或 者 前 面 页 面 的 参 引 页 面 集 和 后 一 个 页 面 的 参 引 页 面 集中 间 寻 找 服务 器 日 志 中 没有 记 
载 的 用 户 访问 页 面 , 通 过 这 种 方法 就 可 以 补 上 用 户 从 客户 端 缓存 中 访问 的 页 面 。 

(5) 事务 识别 。 其 建立 在 对 用 户 会 话 识 别 的 基础 上 ,目的 是 依据 数据 挖掘 任务 的 需要 
将 事务 做 分 割 或 合并 处 理 , 使 其 适合 于 数据 挖掘 需求 的 分 析 , 因 此 事务 识别 的 方法 主要 有 分 
割 和 合并 两 种 。 在 Web 日 志 挖 掘 中 ,用 户 会 话 是 唯一 具备 自然 事物 特征 的 对 象 ,但 是 它 对 
于 挖掘 关联 规则 等 方法 来 说 粒度 太 粗 ,需要 利用 分 割 算法 将 其 转化 为 更 小 的 事务 。 

@O 最 大 向 前 参 引 模型 (Maximal Forward Reference Mode) 。 基 于 假设 : 用 户 访问 过 程 
中 只 有 改变 访问 主题 时 , 才 会 访问 前 面 访问 过 的 页 面 以 跳 转 到 另外 的 页 面 。 所 谓 的 向 前 , 指 
的 是 某 页 面 不 在 目前 的 访问 服务 器 会 话 期 间 页 面 集 里 。 向 后 指 的 是 某 页 面 已 在 目前 的 访问 
服务 器 会 话 期 间 集 里 。 

@ 引用 长 度 (Reference Length) 是 用 户 浏览 页 面 的 时 间 ,在 不 考虑 网 络 延 迟 的 情况 下 
可 以 认为 是 当前 页 面 请 求 和 其 下 一 次 请 求 之 间 的 时 间 间 隔 。 引 用 长 度 事务 识别 算法 是 假设 
用 户 花 在 一 个 页 面 上 的 时 间 与 该 页 面 对 用 户 是 导航 页 还 是 内 容 页 有 关 。 假 设 已 知 日 志 中 导 
航 页 面 的 百分比 ,通过 计算 可 求 出 导航 页 和 内 容 页 的 分 界 ,然后 对 每 一 用 户 会 话 中 的 页 面 引 
用 进行 分 类 ,得 到 用 户 会 话 中 的 内 容 页 ,也 就 得 到 了 该 用 户 会 话 所 对 应 的 事务 。 在 高 速 的 网 
络 中 ,网 络 延 迟 较 小 ,该 算法 可 以 得 到 较 准 确 的 结果 ,但 是 WWW 的 主要 载体 Internet 的 网 
络 延迟 时 长 普遍 较 大 。 

Web 日 志 挖掘 经 过 数据 预 处 理 和 事务 识别 两 个 阶段 后 ,生成 事务 数据 库 。 事 务 数据 库 
中 包含 用 户 的 浏览 路 径 , 也 就 是 最 大 向 前 引用 路 径 。 挖 掘 算法 实施 阶段 ( 即 模式 发 现 ) 就 是 
对 事务 识别 阶段 的 结果 实时 挖掘 算法 产生 规则 和 模式 。 

3. 内 容 与 处 理 

内 容 预 处 理 包 含 文件 .图像 . 脚 本 以 及 其 他 文件 (如 多 媒体 ) 等 转换 为 Web 使 用 挖掘 处 
理 所 需 要 的 数据 格式 。 这 种 处 理 常 常 包含 诸如 分 类 、 聚 类 的 内 容 挖掘 。 在 Web 使 用 挖掘 
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中 ,网 页 视图 可 以 用 于 过 滤 会 话 (Session) ,网 站 内 容 可 以 用 于 过 滤 模 式 发 现 得 到 输入 或 输 
出 。 例 如 ,分 类 算法 可 以 用 来 限制 模式 发 现 中 只 输出 与 某 一 主题 或 某 类 产品 有 关 的 网 页 视 
图 。 另 外 ,基于 主题 可 对 网 页 视图 进行 分 类 聚 类 ,也 可 根据 网 页 视图 的 使 用 对 其 进行 分 类 。 
网 页 视图 可 通过 文本 、 图 形 、 多 媒体 转化 为 信息 ,在 网 页 视图 上 进行 内 容 挖掘 ,这 些 信息 须 首 
先 转换 为 特定 的 格式 。 静态 网 页 的 内 容 通 过 对 HTML 、 预 定义 格式 数据 的 语义 分 析 或 用 个 
性 化 技术 的 内 容 服务 器 或 用 数据 库 构造 网 页 视图 的 技术 有 可 能 产生 预 处 理 程序 没有 能 力 处 
理 的 大 量 的 网 页 视图 。 某 一 给 定 的 服务 器 会 话 即 可 能 只 存在 了 大 型 动态 网 站 中 的 一 小 部 分 
网 页 视图 。 在 用 户 浏览 网 页 的 同时 ,网 页 的 内 容 可 能 正在 不 断 地 .有 序 地 .有 规律 地 变化 。 
每 个 请 求 , 或 者 把 脚本 .模板 和 数据 库存 取 结 合 起 来 。 如 果 只 能 预 处 理 被 存 取 的 那 部 分 视 
图 ,分 类 、 聚 类 算法 的 结果 可 能 有 偏差。 

4. 结构 预 处 理 

网 站 结构 是 由 网 页 视图 .网 页 框架 、 图 像 目 标 之 间 超 文 本 链接 生成 的 ,以 增加 更 详细 的 
网 页 视图 ,站 点 结构 可 以 用 于 识别 潜在 的 有 趣 规则 。 有 少数 的 使 用 预 处 理 步骤 不 能 用 这 种 
网 页 结构 完成 ,网 站 结构 可 以 用 与 网 站 内 容 相同 的 方法 来 获取 和 进行 预 处 理 。 动 态 链接 会 
比 静态 网 页 视图 带 来 更 多 的 问题 ,不 同 服务 器 会 话 也 许 会 生成 不 同 的 网 站 结构 。 


8.5.2 Web 使 用 挖掘 模式 发 现 


模式 发 现 阶段 就 是 利用 挖掘 算法 挖掘 出 有 效 的 、 新 颖 的 、 潜 在 的 有 用 的 及 最 终 可 以 理 
解 的 信息 和 知识 。 可 用 于 Web 使 用 挖掘 的 技术 有 统计 分 析 、 路 径 分 析 、 关 联 规则 、 序 列 模 
式 、 分 类 、 聚 类 以 及 依赖 性 建 模 等 。 

1. 统计 分 析 法 

统计 分 析 方 法 是 抽取 有 关 网 站 访问 者 的 知识 的 最 常用 的 方法 。 通 过 分 析 会 话 文件 或 事 
物 数据 库 , 可 对 诸如 网 页 视图 、 浏 览 时 间 、 导 航路 径 长 度 等 做 出 不 同 种 类 的 描述 性 统计 分 析 。 
很 多 Web Traffic 分 析 工 具 还 提供 定期 的 报告 ,其 中 包含 最 大 频繁 访问 页 面 . 平 均 浏览 时 
间 .通过 站 点 的 路 径 的 平均 长 度 等 统计 信息 。 此 类 报告 还 能 提供 有 限 的 低层 次 的 错误 分 析 ， 
比如 检测 未 授权 入 口 点 、 找 出 最 常见 不 变 的 URL 等 。 尽 管 这 种 分 析 缺 乏 深 度 , 但 是 这 类 知 
识 有 助 于 改进 系统 性 能 、 便 于 站 点 修改 并 能 提供 营销 决策 支持 。 

2. 路 径 分 析 法 

一 个 Web 站 点 拓扑 结构 就 是 一 幅 有 向 图 ,该 图 代表 了 定义 在 网 站 上 的 页 面 之 间 的 联 
系 ,客户 在 一 段 时 间 内 的 访问 模式 为 其 子 图 。 具 有 相似 访问 子 图 的 客户 为 需求 相似 的 客户 ， 
此 即 客户 群体 聚 类 。 客 户 访问 频繁 的 有 向 边 则 为 频繁 路 径 。 使 用 路 径 分 析 技 术 进行 Web 
使 用 挖掘 ,最 常见 的 就 是 图 ,图 的 直接 来 源 是 网 站 结构 图 。 站 点 页 面 定 义 为 图 的 结 点 ,页 面 
之 间 的 超级 链接 定义 为 图 中 的 边 。 其 他 各 式 各 样 的 图 都 是 建立 在 页 面 和 页 面 之 间 的 联系 或 
一 定数 量 的 用 户 浏览 页 面 顺序 基础 之 上 的 。 基 于 Web 使 用 挖掘 的 数据 挖掘 ,就 是 要 从 图 中 
确定 最 频繁 的 路 径 访问 模式 或 大 参 引 访问 序列 。 路 径 分 析 可 以 用 来 确定 网 站 上 最 频繁 的 访 
问 路 径 , 从 而 调整 站 点 的 结构 。 

路 径 分 析 中 非常 重要 的 一 种 方法 “Footprints” 的 思想 是 : 访问 者 在 访问 一 个 Web 站 点 
时 ,会 留 下 "足迹 ”, 经 过 一 段 时 间 ,最 频繁 访问 的 区 域 会 形成 路 径 , 于 是 新 的 访问 者 会 依据 这 
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些 路 径 进 行 访问 “足迹 ?被 自动 地 留 下 ,并且 访问 者 不 需要 提供 自己 的 任何 信息 。 蚁 群 算 
法 可 以 看 作 路 径 分 析 的 重要 方法 , 蚁 群 优化 (Ant Colony Optimization,ACO) 是 一 种 仿生 算 
法 ,最早 由 Dorigo、Maniezzo 等 提出 。Cheng-Fa Tasi 等 将 ACO 应 用 于 数据 挖掘 ,提出 了 基 
于 不 同 偏好 的 ACO 聚 类 方法 。Ajith Abraham 提出 一 个 蚁 群 聚 类 算法 来 发 现 Web 使 用 模 
式 , 并 与 线性 的 基因 方法 结合 使 用 。 

3. 关联 规则 

关联 规则 主要 关注 事务 内 的 关系 , 它 通过 量化 的 数字 ,描述 事务 A 的 出 现 对 事务 B 的 
出 现 有 多 大 的 影响 。 在 Web 使 用 挖掘 中 ,关联 规则 挖掘 就 是 挖掘 出 用 户 在 一 个 访问 期 间 
(Session) 从 服务 器 上 访问 的 页 面 /文件 之 间 的 关系 , 找 出 在 某 次 服务 器 会 话 中 最 经 常 一 起 
出 现 的 相关 页 面 。 控 掘 发 现 的 关联 规则 往往 是 指 支持 度 超 过 预 设 阔 值 的 一 组 访问 网 页 ,这 
些 网 页 之 间 可 能 并 不 存在 直接 的 引用 (Reference) 关 系 。 例 如 ,用 Apriori 算法 发 现 关 联 规 
则 有 可 能 发 现 访问 包含 电子 产品 的 网 页 的 用 户 和 访问 有 关 体育 用 品 的 网 页 的 用 户 之 间 存 在 
一 定 的 联系 。Apriori 算法 是 挖掘 关联 规则 的 常用 技术 ,可 从 事务 数据 库 中 挖掘 最 大 频繁 访 
问 项 集 ,该 项 集 就 是 关联 规则 挖掘 出 来 的 用 户 访问 模式 。 除 了 商业 和 市 场 营销 方面 的 应 用 
之 外 ,这 类 规则 存在 与 否 还 有 助 于 网 站 设计 者 重新 组 织 和 设计 Web 站 点 的 结构 。 由 于 一 般 
网 站 的 用 户 访问 序列 数据 库 数据 量 都 很 大 ,目前 的 关联 规则 挖掘 技术 都 是 致力 于 降低 搜索 
空间 。 

4. 序列 模块 

Web 使 用 挖掘 中 , Web 序列 模式 种 类 较 多 ,其 中 比较 重要 的 是 访问 路 径 模式 。 时 序 模 
式 主要 关注 事务 之 间 的 关系 ,就 是 在 时 间 惟 有 序 的 事务 集中 ,找到 那些 一些 项 跟随 男 一 些 
项 ”的 内 部 事务 模式 。 序 列 模式 挖掘 就 是 挖掘 出 交易 集 之 间 有 了 时间 序 列 关 系 的 模式 ,在 
Web Log 是 以 一 段 时 间 为 单位 记载 的 。 经 过 数据 精简 和 事件 交易 确认 以 后 是 一 个 间断 的 
时 间 序 列 。 这 些 序列 所 反映 的 用 户 行为 有 助 于 商家 印证 其 产品 所 处 的 生命 周期 阶段 ,根据 
关心 其 产品 的 访问 者 的 浏览 模式 决定 广告 的 放置 ,针对 特定 用 户 群 制作 广告 ,增加 广告 的 针 
对 性 。 

利用 对 Web 日 志 进 行 序列 模式 挖掘 所 获得 的 知识 ,有 助 于 网 站 管理 人 员 : 改善 网 站 
的 组 织 ; @ 根 据 具 有 相同 浏览 模式 的 访问 者 所 访问 的 内 容 来 裁减 用 户 与 Web 信息 空间 的 
交互 ,减少 用 户 过 滤 信息 的 负担 ; @ 预 测 未 来 的 访问 模式 ,了 解 Web 正在 发 生 的 变化 ,改进 
市 场 策略 。 相 关 序 列 模式 的 存 取 分 析 , 可 对 服务 器 的 缓存 、 预 取 和 交换 参数 进行 调整 。 另 
外 ,挖掘 出 来 的 一 些 暂 时 性 的 序列 模式 ,可 以 分 析 企 业 战 略 实施 或 网 站 产品 的 促销 效果 。 其 
他 类 型 的 空间 序列 模式 分 析 可 用 于 诸如 趋势 分 析 、 转 折 点 检测 和 相关 性 分 析 等 序列 模式 的 
发 现 。 

5. 分 类 

分 类 技术 可 以 从 个 人 信息 或 共同 访问 模式 中 得 出 访问 某 一 服务 器 文件 的 用 户 特征 。 分 
类 技术 主要 是 根据 用 户 群 的 特征 挖掘 用 户 群 的 访问 特征 ( 某 些 共同 的 特性 ) ,这 些 特征 可 用 
于 把 数据 项 映射 到 预先 定义 好 的 类 中 去 , 即 对 新 添加 到 数据 库 里 的 数据 进行 分 类 。 在 Web 
数据 挖掘 中 ,分 类 技术 可 以 根据 访问 这 些 用 户 而 得 到 的 个 人 信息 或 共同 访问 模式 得 出 某 一 
服务 器 的 用 户 特征 。 另 外 ,通过 用 户 注册 表 和 在 线 调查 表 也 可 以 得 到 用 户 的 一 些 特 征 。 但 
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根据 用 户 注 册 信 息 对 用 户 进 行 分 类 ,需要 抽取 和 选择 出 最 好 的 描述 类 别 属性 特征 的 特征 。 
分 类 方法 有 很 多 种 , 常 使 用 有 监督 的 归纳 学 习 算 法 ,如 决策 树 、 贝 叶 斯 分 类 法 、k- 邻 近 分 析 
法 等 。 

6. 聚 类 

聚 类 技术 是 对 符合 某 一 访问 规律 特征 的 用 户 进行 用 户 特征 挖掘 。 聚 类 分 析 可 以 从 
Web 访问 信息 数据 中 聚 类 出 具有 相似 特征 的 那些 用 户 ,可 实现 自动 给 一 个 特定 的 顾客 聚 类 
发 送 销售 邮件 ,为 一 个 顾客 聚 类 动态 地 改变 一 个 特殊 的 站 点 等 。 在 Web 使 用 挖掘 中 ,存在 
两 种 类 型 的 聚 类 : 使 用 聚 类 (用 户 聚 类 ) 和 网 页 聚 类 。 用 户 聚 类 主要 是 把 所 有 用 户 划 分 为 若 
干 组 ,具有 相似 特性 (或 浏览 模式 ) 的 用 户 分 在 一 组 。 这 类 知识 对 电子 商务 和 用 户 提供 个 性 
化 的 服务 特别 有 用 。 网 页 聚 类 可 以 找 出 具有 相关 内 容 的 网 页 组 。 这 对 网 上 搜索 引擎 及 提供 
上 网 帮助 的 应 用 特别 有 用 。 上 述 两 类 应 用 都 能 根据 用 户 的 询问 或 过 去 所 需 信息 的 历史 生成 
静态 或 动态 HTML, 从 而 向 用 户 推荐 相关 的 超 链 接 。 

7. 依赖 性 

依赖 性 建 模 是 Web 挖掘 中 另 一 种 十 分 有 用 的 模式 发 现 方法 。 其 目标 是 开发 出 一 种 能 
表达 Web 领域 中 各 种 变量 之 间 的 显著 依赖 性 的 模型 。 例 如 ,在 网 上 商店 中 ,一 个 用 户 从 访 
问 的 常客 到 潜在 的 购买 者 的 行为 选择 过 程 ,也 许 会 经 历 几 个 不 同 的 阶段 。 构 造 一 种 模型 来 
表达 这 种 过 程 是 很 有 用 的 。 有 好 几 种 概率 学 习 方 法 可 以 用 来 为 用 户 的 浏览 行为 建 模 ,比如 ， 
隐 马 尔 可 夫 模 型 (Hidden Markov Models)、 贝 叶 斯 信念 网 络 (Bayesian Belief NetWorks) 模 
型 等 。Web 使 用 模式 的 建 模 不 仅 能 为 用 户 行为 提供 理论 框架 ,还 具有 预测 Web 资源 消耗 
的 潜力 。 这 类 信息 对 设计 增加 网 上 产品 销售 策略 以 及 改进 用 户 导航 的 便利 性 都 很 有 用 。 
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挖掘 出 来 的 用 户 行为 模式 (集合 ) ,需要 合适 的 工具 和 技术 对 其 进行 分 析 、 解 释 和 可 视 
化 ,从 中 筛选 出 有 趣 ( 有 用 ) 的 模式 ,使 之 成 为 人 们 可 以 理解 的 知识 ,否则 挖掘 出 来 的 模式 将 
得 不 到 很 好 的 应 用 。 对 于 大 量 挖掘 出 来 的 模式 ,也 需要 一 种 技术 使 用 户 可 以 方便 地 查询 其 
想 要 的 模式 ,从 而 使 解释 和 分 析 更 具有 针对 性 。 实 现 这 个 功能 也 就 是 要 实现 在 已 经 挖掘 出 
来 的 知识 上 进行 查询 ,精确 的 分 析 方法 通常 是 由 Web 挖掘 的 具体 应 用 来 控制 的 。 

最 常见 的 模式 分 析 方法 有 两 种 ,一 种 是 如 SQL 那样 的 知识 查询 机 制 , 采 用 SQL 查询 语 
句 进行 分 析 , 如 Web Miner 系统 ,就 是 一 种 类 似 于 SQL 的 查询 机 制 。 另 一 种 方法 是 将 Web 
使 用 数据 装 和 人 数据 仓库 ,以 便 执行 联机 分 析 处 理 并 提供 可 视 化 的 输出 结构 。 诸 如 图 形 化 模 
式 或 为 不 同 的 值 赋予 不 同 颜色 的 可 视 化 技术 ,可 以 使 得 数据 中 的 总 体 模 式 或 趋势 变 得 很 突 
出 。 比 较 典 型 的 模式 分 析 工 具有 Pitkow 等 开发 的 WebViz 系统 ,可 对 挖掘 的 访问 模式 进行 
可 视 化。 该 系统 可 以 过 滤 无 关 的 Web 网 页 ,使 人 们 只 分 析 有 意义 的 部 分 ,最 终 形成 一 个 有 
向 无 环 图 (可 视 化 的 结果 )。 图 中 结 点 是 页 面 ,其 边 是 页 面 之 间 的 超级 链接 。 可 视 化 技术 可 
以 有 效 地 帮助 人 们 理解 不 同 现象 。 男 外, 内容 、 结 构 信 息 也 可 以 用 来 滤 除 特定 的 模式 ,比如 
包含 特定 使 用 数据 类 、 内 容 类 或 包含 特定 超 链 结构 的 网 页 。 模 式 分 析 有 很 多 种 方法 ,其 中 最 
主要 的 是 可 视 化 技术 、OLAP 和 数据 查询 。 
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8.5.4 Web 使 用 挖掘 模式 应 用 


Web 使 用 挖掘 的 作用 是 根据 挖掘 应 用 的 不 同 ,可 以 将 Web 挖掘 分 为 两 种 主要 倾向 : 一 
般 访问 模式 跟踪 和 定制 使 用 跟踪 。Web 使 用 挖掘 的 用 户 模 式 主要 应 用 在 以 下 几 个 方面 。 

1. 个 性 化 服务 与 定制 

对 客户 的 个 性 化 服务 与 定制 目前 主要 有 以 下 三 个 方面 。 

(1) 个 性 化 网 站 。 强 调 信息 个 性 化 , 亦 即 识别 、 建 立 .调整 客户 的 喜好 ,使 客户 能 以 自己 
的 方式 来 访问 。 人 们 越 来 越 希 望 网 页 的 内 容 能 够 从 原来 的 以 * 网 站 ?为 中 心 转 变 成 以 "用 户 ” 
为 中 心 , 尽 可 能 地 自动 调整 以 迎合 每 个 用 户 的 浏览 兴趣 。 个 性 化 网 站 建设 在 现在 研究 和 作 
为 日 的 的 应 用 中 都 是 一 个 具有 挑战 性 的 领域 。 

(2) 个 性 化 广告 。 当 打开 一 个 网 站 时 ,就 会 弹出 不 需要 的 广告 ,这 使 消费 者 心烦 意 乱 ， 
而 且 浪 费 他 们 宝贵 的 时 间 和 精力 。 个 性 化 广告 就 不 同 , 它 针对 用 户 需 要 提供 广告 ,使 用 户 减 
少 搜索 的 时 间 , 得 到 想 要 的 东西 。 有 针对 性 地 提供 个 性 化 广告 条 ,对 那些 要 通过 WWW 发 
送 广告 的 企业 ,提供 个 性 化 的 广告 服务 要 比 泛泛 的 、 随 意 的 广告 有 价值 得 多 。 

(3) 在 线 推荐 (Online Recommendation) 产 品 或 网 页 。 是 根据 网 络 访问 者 的 偏好 和 导 
航行 为 个 性 化 营销 。 把 活动 用 户 的 短期 访问 历史 与 前 面 挖掘 的 模式 进行 匹配 ,为 活动 用 户 
预测 下 一 步 最 有 可 能 访问 的 页 面 , 并 根据 得 分 对 页 面 进 行 排序 后 , 附 在 现行 用 户 请 求 访问 页 
面 后 推荐 给 用 户 。 

2. 商务 智能 

Web 使 用 挖掘 对 大 量 用 户 使 用 记录 的 分 析 , 能 够 为 服务 商 分 析 用 户 行为 提供 商业 智 
能 ,使 服务 商 更 方便 地 实施 客户 关系 管理 。Web 使 用 挖掘 对 商务 智能 的 研究 主要 有 以 下 几 
个 方面 。 

(1) 分 析 潜 在 的 目标 市 场 ,优化 电子 商务 网 站 的 经 营 模 型 。 根 据 客户 的 历史 资料 不 仅 
可 以 预测 需求 趋势 ,还 可 以 评估 需求 倾向 ,有 助 于 提高 企业 的 竞争 力 。 

(2) 聚 类 客户 。 在 电子 商务 中 客户 聚 类 是 一 个 重要 的 方面 。 通 过 分 组 具有 相似 浏览 行 
为 的 客户 ,并 分 析 组 中 客户 的 共同 特征 ,可 以 帮助 电子 商务 的 组 织 者 更 好 地 了 解 自己 的 客 
户 ,向 客户 提供 更 适合 面向 客户 的 服务 。 销 售 商 根据 分 析出 来 的 聚 类 信息 及 时 调整 页 面 及 
页 面 内 容 , 使 商务 活动 能 够 在 一 定 程度 上 满足 客户 的 要 求 ,使 商务 活动 对 客户 和 销售 商 来 说 
都 更 有 意义 。 

(3) 确定 消费 者 消费 的 生命 周期 ,针对 不 同 的 产品 定制 相应 的 营销 策略 。 

(4) 了 解 客户 ,针对 不 同 客 户 提供 “ 量 身 定做 ”的 产品 。 电 子 销售 商 可 以 获取 消费 者 的 
个 人 爱好 ,更 加 充分 地 了 解 客 户 的 需要 ,给 每 一 位 消费 者 的 独特 需要 提供 个 性 化 的 产品 ,有 
利于 提高 消费 者 的 满意 度 ,使 消费 者 成 为 长 久 的 客户 。 

(5) 延长 客户 的 驻 留 时 间 。 对 客户 来 说 ,传统 客户 与 销售 商 之 间 的 空间 距离 在 电子 商 
务 中 已 经 不 存在 了 ,Internet 上 每 一 个 销售 商 对 于 客户 来 说 都 是 一 样 的 。 通 过 对 客户 访问 
信息 的 挖掘 ,就 能 知道 客户 的 浏览 行为 ,从 而 了 解 客户 的 兴趣 及 需求 。 在 Internet 上 的 电子 
商务 中 的 一 个 典型 序列 ,恰好 就 代表 了 一 个 消费 者 以 页 面 形式 在 站 点 的 导航 行为 ,所 以 可 运 
用 数据 挖掘 中 的 序列 模式 来 发 现 技 术 。 
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(6) 发 现 潜在 用 户 。 对 一 个 电子 商务 网 站 来 说 ,了 解 . 关 注 在 册 客 户 全 体 非常 重要 ,但 
从 众多 的 访问 者 中 发 现 潜在 客户 群体 也 同样 非常 关键 。 如 果 发 现 某 些 客户 为 潜在 客户 群 
体 ,就 可 以 对 这 类 客户 实施 一 定 策略 ,使 他 们 尽快 成 为 在 册 客 户 群 体 。 对 一 个 电子 商务 网 站 
来 说 ,也 许 就 意味 着 订单 数 的 增多 ,效益 的 增加 。 

3. 改善 站 点 性 能 

对 Web 站 点 的 链接 结构 的 优化 可 从 两 个 方面 来 考虑 : 四 通过 对 Web Log 的 挖掘 ,发 现 
用 户 访问 页 面 的 相关 性 ,从 而 对 密切 联系 的 网 页 之 间 增 加 链接 ,方便 用 户 使 用 ; 四 通过 对 
Web Log 的 挖掘 ,发 现 用 户 的 期 望 位 置 。 如 果 在 期 望 位 置 的 访问 频率 高 于 对 实际 位 置 的 访 
问 频率 ,可 以 考虑 在 期 望 位 置 和 实际 位 置 之 间 建立 导航 链接 ,从 而 实现 对 Web 站 点 的 优化 。 
可 以 找到 用 户 返 回 点 ,这 个 位 置 可 能 是 期 望 位 置 ,也 可 能 是 目标 页 面 ,可 以 通过 确定 时 间 立 
值 来 解决 这 个 问题 。 当 用 户 在 返回 点 停留 的 时 间 较 长 ,超过 指定 的 冰 值 时 , 则 认为 该 页 面 是 
目标 页 面 ; 否则 可 以 认为 该 页 面 是 期 望 位 置 。 

Mike Perkowitz 和 Oren Etzioni 最 早 对 自 适应 网 站 进行 了 研究 ,另外 ,Ihor Kuz、Wen- 
Syan Li 等 对 自 适应 网 站 进行 了 一 定 的 研究 。 自 适应 Web 站 点 是 指 Web 服务 器 能 通过 学 
习 用 户 的 访问 模式 , 自动 地 改进 Web 站 点 信息 的 组 织 (Organization ) 与 显示 
(Presentation) 。 不 同 职业 的 人 群 , 访 问 同一 站 点 的 目的 是 不 一 样 的 ,但 相同 职业 的 人 ,往往 
具有 共性 。 在 间接 URL 聚 类 中 , 先 对 用 户 的 访问 行为 聚 类 ,由 此 获得 相应 的 URL 类 。 可 
以 看 出 ,每 类 URL 代表 了 某 类 职业 人 员 访 问 站 点 的 共同 目的 ,因而 可 以 把 每 一 类 URL 集 
中 放 在 新 的 Web 页 面 中 ,由 站 点 管理 者 分 析 新 Web 页 面 的 特点 ,赋予 相关 的 标题 ,不 同 职 
业 的 人 群 可 以 只 访问 与 自己 有 关 的 主题 页 面 。 

另外 ,利用 Web 使 用 挖掘 提高 搜索 引擎 的 性 能 是 Web 使 用 挖掘 比较 重要 的 研究 领域 。 
如 Dell Zhang 等 对 利用 Web 使 用 挖掘 提高 搜索 引擎 的 性 能 进行 了 研究 。 


小 结 


Web 挖掘 起 因 于 Internet 的 迅速 发 展 和 广泛 应 用 ,使 得 Web 的 信息 量 以 惊人 的 速度 增 
加 ,产生 一 系列 的 问题 : 难以 准确 获得 所 需要 的 信息 ,难以 获得 信息 之 间 潜 在 的 知识 ,个 性 
化 的 信息 服务 的 欠缺 等 。 为 了 解决 这 些 问题 ,人 们 把 传统 的 数据 挖掘 技术 和 Web 结合 起 
来 ,从 而 产生 了 Web 挖掘 。 利 用 网 络 提供 优质 的 产品 及 优良 的 服务 是 今天 电子 商务 发 展 的 
核心 与 重点 。 如 何在 电子 商务 活动 中 通过 技术 手段 来 与 顾客 沟通 ,了 解 其 消费 偏好 习惯 以 
及 潜在 的 消费 意识 ,进而 设计 出 满足 不 同 客户 群体 的 个 性 化 网 站 ,以 完成 对 每 一 个 客户 的 优 
质 个 性 化 服务 ,这 些 已 成 为 电子 商务 活动 中 迫切 需要 解决 的 问题 。 利 用 Web 数据 挖掘 技术 
就 可 以 有 效 解决 以 上 问题 。 


习题 


1. 简 述 Web 数据 挖掘 的 概念 。 
2. 简 述 Web 数据 挖掘 面临 的 主要 问题 及 Web 挖掘 的 流程 。 
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3. 简 述 Web 内 容 挖 掘 、 结 构 挖掘 和 使 用 挖掘 。 

4. 简 述 Web 使 用 挖掘 的 流程 及 数据 预 处 理 的 注意 事项 。 
5. 有 哪些 方法 可 以 用 于 Web 使 用 挖掘 模式 发 现 ? 

6. 
7 
8 
9 


简 述 Web 使 用 挖掘 模式 分 析 及 其 具体 应 用 。 


. 简 述 Web 结构 挖掘 ,如 何 处 理 超 链接 和 页 面 内 容 的 关系 ? 
. 了解 PageRank 算法 和 HITS 算法 ,并 做 对 比 。 
.Web 结构 挖掘 有 哪些 典型 应 用 ? 


10. 简 述 Web 内 容 挖 掘 及 其 流程 。 


第 钞 章 


数据 挖掘 在 电子 商务 中 的 应 用 


随 着 Internet 技术 的 不 断 发 展 与 成 熟 ,电子 商务 这 一 现代 商业 模式 以 其 高 效率 、 低 成 本 
和 不 受 时 空 限制 的 特点 成 为 企业 商务 活动 发 展 的 大 趋势 。 电 子 商务 的 迅速 发 展 导致 诸多 问 
题 也 随 之 出 现 。 如 今 所 有 企业 面临 的 一 个 共同 问题 就 是 尽管 电子 商务 系统 收集 了 大 量 的 数 
据 , 然 而 真正 有 价值 的 信息 却 非常 少 。 如 何 对 这 些 信息 进 行 有 效 的 组 织 与 利用 ,从 海量 数据 
中 获得 有 利于 商业 运作 .提高 竞争 力 的 信息 是 企业 或 待 解决 的 焦点 问题 。 

数据 挖掘 技术 的 出 现 为 电子 商务 活动 系统 提供 了 数据 分 析 强大 的 技术 支持 。 数 据 挖掘 
是 面向 应 用 的 ,也 只 有 将 数据 挖掘 技术 应 用 于 大 量 的 、 复 杂 的 数据 中 ,对 数据 挖掘 技术 研究 
的 价值 才能 得 到 最 佳 体现 。 电 子 商务 的 发 展 使 得 越 来 越 多 的 企业 开始 网 上 交易 ,电子 商务 
网 站 的 服务 器 日 志 、 后 台数 据 库 中 客户 相关 的 数据 以 及 大 量 的 交易 记录 等 数据 资源 中 所 蕴 
含 的 大 量 的 有 益 信 息 有 待 于 充分 的 挖掘 和 利用 ,无 疑 电 子 商 务 是 数据 挖掘 应 用 的 最 佳 对 象 。 
下 面 将 举例 说 明 数据 挖掘 在 几 个 电子 商务 领域 的 应 用 。 


9.1 网 站 结构 优化 


在 网 站 结构 优化 领域 ,国内 外 的 学 者 做 出 了 不 少 努 力 。1997 年 ,Mike Perkowitz 和 
Oren Etzioni 提出 了 自 适 应 网 站 (Adaptive Web Sites) 的 概念 , 即 网 站 通过 对 用 户 访问 模式 
的 学 习 , 自 动 地 改变 其 组 织 结构 和 展示 内 容 。 文 献 同时 提出 了 PageGather 算法 ,从 服务 器 
日 志 ( 也 称 访问 日 志 或 Web 日 志 ) 中 提取 用 户 访问 信息 并 构造 关联 图 ,通过 对 页 面 的 聚 类 生 
成 反映 用 户 感 兴趣 的 索引 页 面 ,并 以 此 来 提高 用 户 浏 览 体验 。 但 该 算法 生成 聚 类 后 ,需要 管 
理 员 手动 选取 ,只 有 选中 的 聚 类 才 会 成 为 索引 页 面 候选 集 。 此 外 ,两 个 页 面 间 的 相似 性 仅 限 
于 是 否 有 链接 相连 ,没有 考虑 页 面 内 容 , 也 可 能 会 破坏 网 站 固有 结构 。 

2001 年 ,香港 大 学 的 Yen 等 人 将 网 页 可 达 性 和 知名 度 用 于 网 页 链接 ,用 无 权 有 向 图 来 
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描述 网 站 ,通过 对 网 页 进行 分 层 , 结 合 网 页 期 望 链接 数 和 访问 率 , 对 网 站 结构 做 出 调整 。 文 
献 简单 地 用 网 页 的 期 望 链接 数 来 表示 可 达 性 ,用 访问 率 来 表示 知名 度 , 并 认为 可 达 性 和 访问 
率 应 该 成 正比 。 然 而 从 现实 来 讲 , 网 页 的 知名 度 并 不 单纯 体现 在 访问 率 上 ,还 有 访问 用 户 数 
等 其 他 因素 。 若 考虑 极端 情况 , 某 用 户 频繁 单 击 某 网 页 , 则 会 使 该 网 页 的 知名 度 迅 速 上 升 ， 
从 而 导致 网 站 结构 出 现 错误 调整 。 

2007 年 , Hamed Qahri Saremi 等 人 利用 图 论 定义 网 站 模型 ,将 二 次 分 配 问题 
(Quadratic Assignment Problem) 扩 展 应 用 到 网 站 链接 结构 分 析 中 。 文 献 采 用 启发 式 蚁 群 
算法 求解 二 次 分 配 问 题 , 旨 在 对 网 页 进行 定位 分 配 ,从 而 为 用 户 提供 导航 服务 ,提高 网 站 可 
用 性 。 在 定义 网 页 间距 离 的 时 候 , 主 要 考虑 了 访问 次 数 、 连 通 度 和 页 面 深 度 , 这 在 一 定 程度 
上 严重 依赖 现 有 网 站 结构 , 且 同 样 没有 考虑 页 面 内 容 的 相关 性 。 

2008 年 , 黄 艳 欢 等 人 提出 了 基于 协作 反馈 的 蚁 群 算法 ,并 使 用 该 算法 对 网 页 进行 关联 
性 分 析 ,同时 根据 用 户 访问 日 志 做 出 系统 推荐 。 文 献 针对 传统 蚁 群 算法 中 蚂蚁 间 相 互信 息 
交换 的 不 足 , 提 出 适合 网 站 结构 优化 的 改进 ,加 强 了 蚂蚁 之 间 的 协作 性 和 反馈 性 。 文 献 提出 
的 方法 是 一 种 协同 过 滤 机 制 的 变 体 , 因 此 存在 协同 过 滤 本 身 固有 的 不 足 , 比 如 在 冷 启动 问题 
上 的 疲软 ; 另 一 方面 ,文献 未 考虑 页 面 之 间 的 相互 作用 ,单纯 从 用 户 的 角度 出 发 ,忽略 了 网 
站 结构 的 自身 特征 。 

2009 年 , 王 洪 伟 等 人 提出 将 Web 挖掘 与 站 点 拓扑 结构 相 结 合 的 方式 ,利用 结 点 连通 
度 、 结 点 深度 、 结 点 偏好 度 以 及 地 标 系数 等 指标 筛选 出 网 站 中 的 重要 结 点 ,并 采用 高 亮 显示 、 
动态 地 图 和 缓冲 预 取 的 策略 为 用 户 提供 自 适 应 服务 。 然 而 ,文献 中 的 多 个 参数 需要 手动 设 
置 , 使 得 主观 因素 对 结果 的 影响 较 大 。 同 时 ,选取 访问 路 径 长 度 及 结 点 的 减少 率 作 为 评价 指 
标 并 不 能 很 好 地 体现 该 方法 的 实际 效果 。 

2009 年 , 程 舒 通 等 人 将 网 站 结构 优化 模型 归纳 为 4 个 部 分 ,分 别 是 数据 的 采集 、 预 处 
理 、 模 式 的 发 现 和 分 析 。 文 献 论述 了 这 4 个 部 分 所 涉及 的 主要 算法 和 相关 技术 ,并 对 该 领域 
未 来 的 发 展 方向 做 了 展望 。 

2010 年 ,Shian-Hua Lin 等 人 将 网 页 HTML 文件 按照 内 容 、 超 链接 等 分 割 到 不 同 的 块 ， 
通过 对 块 聚 类 ,得 到 一 系列 具有 内 容 ,链接 相关 性 的 网 页 集合 ,再 对 这 些 集合 进行 分 级 ,最终 
形成 网 站 地 图 生成 器 。 文 献 在 网 站 地 图 生成 方面 ,形成 了 一 套 完善 的 方案 ,但 由 于 没有 将 用 
户 的 访问 行为 考虑 在 内 ,无 法 从 用 户 角 度 吸收 知识 和 经 验 , 导 致 生 成 的 网 站 地 图 难免 有 失 
偏颇 。 

2012 年 ,M. R Martinez-Tores 等 人 提出 了 一 种 基于 渐进 式 因 子 分 析 估 算 的 网 站 结构 
挖掘 方法 。 该 方法 将 网 站 结构 分 解 成 域 网 (Domain Net) 和 页 面 网 (Page Net) 两 个 连通 图 ， 
并 将 其 作为 社交 网 络 ,通过 分 析 该 网 络 中 的 多 个 因子 .采用 渐进 式 遗 传 算法 ,挖掘 出 最 佳 站 
点 结构 。 该 方法 虽然 考虑 了 页 面 内 容 和 链接 两 方面 ,但 相关 因子 数 太 多 , 且 选 取 过 程 较 为 烦 
琐 , 在 计算 上 复杂 度 较 高 。 

2013 年 ,中 国 台湾 的 Peng-Yeng 等 人 通过 改进 禁忌 搜索 (Tabu Search) 算 法 增加 自 适 
应 禁忌 列表 ,提出 了 ETS(Enhanced Tabu Search) 算 法 ,用 来 解决 多 约束 条 件 下 的 网 站 结构 
优化 问题 ,并 在 商业 实践 中 予以 应 用 。 文 献 将 连通 度 .出 度 .基本 链接 、 页 面 聚 类 ,账户 安全 、 
站 点 深度 等 多 个 条 件 作为 约束 ,对 页 面 的 访问 进行 分 析 , 利 用 ETS 算法 搜寻 最 佳 路 径 。 然 
而 ETS 算法 对 网 站 的 规模 有 比较 严格 的 限制 ,一 旦 网 站 规模 较 大 ,页 面 数量 增加 ,会 导致 算 
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法 的 运行 时 间 急剧 上 升 ,因此 并 不 适合 大 型 网 站 。 

除 此 之 外 ,Corinl、.Lempel 和 Rafiei 等 人 提出 了 基于 马尔 可 夫 链 的 站 点 链接 或 网 页 知名 
度 分 析 方法 ; 王 有 为 等 人 利用 改进 的 PrefixSpan 算法 来 寻找 访问 序列 中 的 频繁 模式 ,从 而 
生成 推荐 网 页 集合 ; Asllani 和 杜 华 等 人 通过 分 析 总 结 多 约束 条 件 ,利用 遗传 算法 对 网 站 结 
构 进 行 优化 ,降低 网 页 平均 负载 。 

目前 在 网 站 结构 优化 领域 ,研究 人 员 基 本 上 都 是 从 Web 日 志 中 获取 数据 ,通过 对 Web 
日 志 进 行 数据 挖掘 ,从 而 对 页 面 或 访问 序列 进行 分 析 。 

一 方面 ,人 们 对 页 面 的 关注 度 要 高 于 访问 序列 ; 另 一 方面 ,在 对 页 面 进行 分 析 时 ,除了 
Lin 等 人 以 外 ,人 们 更 多 地 关注 其 链接 所 带 来 的 关联 关系 ,很 少 考虑 页 面 内 容 之 间 的 相关 
性 ,这 在 一 定 程度 上 削弱 了 分 析 结 果 的 可 靠 性 。 当 然 , 也 有 学 者 将 网 站 结构 优化 分 为 两 类 : 
名 基于 用 户 行为 评估 站 点 结构 存在 的 问题 ; 四 基于 站 点 模型 的 方法 ,而 不 考虑 用 户 行为 的 
影响 。 

网 站 结构 优化 能 够 提高 用 户 的 使 用 体验 ,增加 网 站 流量 进而 创造 经 济 价值 。 随 着 互联 
网 逐步 深入 国民 经 济 的 各 个 领域 ,网 站 类 型 及 数量 不 断 增多 ,该 技术 的 应 用 场景 将 越 来 
越 多 。 


9.2 智能 搜索 引擎 


搜索 引擎 由 信息 抽取 系统 和 用 户 界面 组 成 。 在 信息 抽取 系统 中 ,由 网 络 机 器 人 获取 互 
联网 页 面 , 经 文本 分 析 处 理 ( 通 常 为 提取 索引 项 .自动 摘要 自动 文 档 分 类 等 ) 后 建立 索引 库 ; 
系统 利用 文档 相似 性 算法 来 完成 相关 文档 的 查找 。 搜 索引 擎 通过 用 户 界 面 接收 用 户 的 查询 
要 求 ,按照 特定 的 算法 在 事先 建立 的 索引 库 中 查找 出 满足 用 户 要 求 的 数据 集合 ,经 排序 后 返 
回 给 用 户 搜 索 结果 ,通常 包含 所 查找 出 的 文章 的 标题 简介 (可 以 是 摘要 、 文 档 开 头 部 分 的 文 
字 出 现 所 查 关键 字 的 句子 等 ) ,文档 创建 日 期 .文档 所 在 网 站 的 链接 等 信息 。 

按照 习惯 上 的 分 类 方法 ,搜索 引擎 可 以 分 为 索引 搜索 和 网 站 目录 搜索 两 种 。 前 者 为 互 
联网 页 面 建立 索引 以 进行 搜索 ,如 Google; 后 者 提供 网 站 的 主题 分 类 目录 进行 搜索 ,如 
Yahoo 提供 了 14 个 主题 类 别 。 目 前 大 多 数 引擎 实现 了 两 者 的 结合 , 既 可 以 进行 网 页 级 的 搜 
索 ,也 可 以 按照 某 一 类 别 进 行 搜索 。 同 时 ,也 出 现 了 多 种 新 的 搜索 服务 ,比如 产品 搜索 ,新闻 
搜索 .多 媒体 信息 搜索 等 。 下 面 分 别 介绍 一 下 搜索 引擎 的 相关 技术 。 


9.2.1 网 络 机 器 人 


网 络 机 器 人 (通常 也 称 为 网 络 蜘 蛛 、 怜 行者 等 ) 可 以 用 在 针对 互联 网 的 数据 统计 、 数 据 搜 
索 .链接 维护 等 方面 。 搜 索引 擎 中 的 网 络 机 器 人 主要 完成 两 个 功能 , 即 分 析 、 获 取 互 联网 的 
链接 和 读 取 各 链接 所 对 应 的 网 页 内 容 。 

网 络 机 器 人 为 完成 任务 必须 具备 一 定 的 智能 ,可 以 概括 为 以 下 几 方 面 。 

(1) 提取 网 页 中 的 有 效 链接 ,剔除 广告 等 无 意义 链接 ,处 理 文档 中 链接 的 书写 错误 ; 

(2) 判断 某 一 页 面 所 含 链接 的 重要 性 ; 

(3) 对 无 效 的 死 链 接 、 黑 洞 式 链接 等 具有 分 析 处 理 能 力 ; 
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(4) 识别 访问 过 的 链接 ; 

(5) 具有 链接 内 容 发 生变 化 时 ,迅速 、 及 时 的 更 新 机 制 ; 

(6) 控制 向 服务 器 目标 发 送 请 求 的 频率 或 速度 。 

当 网 络 机 器 人 被 用 于 特定 领域 的 信息 搜索 时 ,应 能 够 对 文档 的 相关 性 进行 判断 , 滤 去 不 
适宜 的 文档 ,降低 索引 的 混乱 程度 ,使 搜寻 结果 更 加 纯净 。 

当 网 络 机 器 人 被 用 于 特定 范围 (比如 某 一 网 站 ) 信 息 搜索 时 ,还 应 能 够 滤 去 超出 范围 的 
链接 。 

上 面 所 列举 的 这 些 要 求 中 ,最 为 突出 的 是 信息 的 更 新 。 互 联网 站 点 和 页 面 数 量 的 激增 
给 索引 库 的 及 时 更 新 带 来 了 极 大 的 困难 ,搜索 引擎 能 够 查询 的 网 页 数量 占 互联 网 的 全 部 网 
页 数量 的 比例 正 逐 渐 减 小 。 所 以 ,建立 一 种 有 效 的 内 容 更 新 机 制 和 变化 控制 机 制 是 一 个 极 
其 现实 而 又 重大 的 问题 。 另 一 个 不 容 忽视 的 事实 是 网 络 机 器 人 非常 消耗 服务 器 的 资源 , 同 
时 占用 可 观 的 带宽 ,所 以 在 运行 中 需要 加 以 控制 和 监视 。 随 着 互联 网 服务 器 性 能 的 提高 和 
带宽 的 增加 ,这 个 矛盾 有 所 缓解 。 但 无 论 如 何 ,设计 高 智能 的 、 对 服务 器 影响 小 的 网 络 机 器 
人 仍 是 开发 人 员 需 要 解决 的 一 个 技术 难题 。 

关于 网 络 机 器 人 的 搜索 算法 设计 ,最 基本 的 宽度 优先 算法 能 够 较 好 地 解决 搜索 面 的 问 
题 , 但 往往 会 在 一 处 停留 过 久 ; 深度 优先 算法 更 便于 发 现 新 的 站 点 ,但 信息 面 的 增长 相对 要 
慢 一 些 。 两 种 方法 各 有 其 优 缺点 ,需要 根据 具体 情况 进行 权衡 和 折 中 。 一 个 好 的 算法 需要 
经 得 起 长 时 间 的 实践 检验 。 


9.2.2 文本 分 析 


互联 网 上 存在 着 多 种 格式 的 文档 ,包括 文本 、 图 像 . 音 频 、 视 频 。 人 们 使 用 搜索 引擎 时 基 
本 上 都 是 进行 文本 搜索 。 一 些 搜索 引擎 提供 多 媒体 文件 (例如 图 像 `MP3 等 ) 的 搜索 ,但 这 
些 搜索 还 是 依赖 于 超 文本 文件 中 的 标记 和 文本 信息 进行 处 理 。 对 于 视频 文件 的 基本 内 容 的 
搜索 技术 已 经 有 了 一 些 积累 ,但 距离 在 互联 网 上 的 实际 应 用 还 有 很 大 的 差距 。 所 以 当前 在 
网 络 数据 挖掘 领域 所 进行 的 研究 主要 集中 在 文本 分 析 上 。 

文本 分 析 所 研究 的 内 容 包括 提取 索引 项 .自动 摘要 .自动 分 类 器 ,文本 聚 类 等 。 文 本 分 
析 所 依据 的 主要 是 文本 中 所 包含 的 词汇 、 超 文本 标记 和 超 链接 。 

索引 项 是 数据 搜索 时 的 主要 依据 ,也 是 计算 机 能 够 进行 搜索 的 必要 条 件 。 通 常用 网 页 
中 出 现 的 词汇 作为 索引 项 ,根据 文档 所 包含 的 概念 来 确定 索引 项 是 另外 一 种 更 复杂 的 技术 。 
对 于 中 文 来 说 词汇 切 分 是 一 个 关系 到 查询 效率 和 准确 率 的 重要 因素 。 很 多 搜索 引擎 实现 了 
对 网 页 的 全 文 检索 , 即 索引 了 文本 中 的 所 有 词汇 ,所 以 索引 的 更 新 和 检索 速度 是 一 个 很 难 解 
决 的 问题 。 设 计 良 好 的 数据 结构 会 极 大 地 有 利于 索引 的 更 新 ,快速 执行 搜索 以 及 节省 存储 
空间 。 

文本 的 分 类 和 聚 类 ,其 结果 都 是 将 文档 分 类 ,只 不 过 前 者 在 分 类 前 已 经 有 了 明确 的 标准 
或 概念 类 别 ,后 者 是 根据 实际 文档 间 的 相似 性 来 完成 分 类 归 组 工作 。 常 用 的 分 类 算法 包括 
后 向 反馈 神经 网 络 ,模式 识别 、 贝 叶 斯 分 类 器 、k 最 近邻 居 法 和 各 种 统计 技术 ; 常用 的 基本 
聚 类 算法 是 层次 凝聚 法 和 平面 划分 法 。 人 们 经 常 采用 这 些 方法 的 组 合 以 获取 满意 的 效果 。 

文本 分 析 技术 不 仅 是 搜索 引擎 的 核心 技术 ,同时 也 是 数字 图 书馆 的 核心 技术 ,只 不 过 通 
常数 字 图 书馆 的 文档 相对 规范 ,数据 的 结构 化 程度 要 高 一 些 。 
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9.2.3 搜索 条 件 的 获取 和 分 析 


当前 的 搜索 引擎 往往 注重 易 用 性 ,而 在 用 户 查 询 请 求 的 获取 和 分 析 上 投入 较 少 。 通常 
搜索 引擎 支持 最 多 的 是 关键 词 搜索 及 在 此 基础 上 的 逻辑 运算 、 在 初步 搜索 结果 中 再 搜索 和 
限制 条 件 较为 复杂 的 高 级 搜索 。 个 别 搜索 引擎 宣称 支持 自然 语言 查询 ,但 实际 上 还 是 以 关 
键 词 为 核心 的 简单 名 查询。 它们 提供 给 用 户 的 只 是 一 个 输入 框 和 一 个 GO 按钮 。 在 有 关 算 
法 还 不 是 很 有 效 的 情况 下 ,这 种 简单 的 用 户 信息 获取 方式 势必 直接 影响 着 搜索 结果 的 准确 
性 ` 相 关 性 。 

搜索 引擎 对 查询 条 件 的 预 处 理 主要 包括 下 面 两 种 ,以 将 其 转换 为 系统 所 能 够 识别 的 查 
询 条 件 。 

(1) 提取 查询 条 件 中 的 有 效 成 分 ,包括 词汇 和 逻辑 关系 ; 

(2) 根据 知识 库 来 获取 关键 词 的 同义词 .近义词 及 相关 词 。 

可 以 看 到 ,这 些 分 析 主 要 是 针对 词汇 的 。 当 用 户 需要 进行 一 个 逻辑 关系 比较 复杂 的 搜 
索 时 ,比较 难于 用 关键 词组 合 出 搜索 条 件 ; 当 用 自然 语言 描述 查询 要 求 时 ,又 为 搜索 引擎 的 
分 析 带 来 了 很 大 的 困难 。 所 以 说 搜索 条 件 的 获取 和 分 析 是 搜索 引擎 从 处 理 一 开始 就 面 对 的 


9.2.4 信息 的 搜索 和 排序 


获取 最 相关 的 信息 是 所 有 查询 的 要 求 , 又 是 一 个 最 难以 满足 的 要 求 。 即 使 是 在 现实 生 
活 中 ,在 办 公 室 仔细 阅读 自己 从 图 书馆 查 到 的 资料 时 ,也 往往 会 发 现 不 是 所 有 的 资料 都 有 
用 。 判 断 哪个 文档 满足 特定 用 户 的 查询 要 求 往 往 需要 专家 的 经 验 ,类 似 于 中 医 开 药方 。 目 
前 搜索 引擎 所 实现 的 只 是 通常 意义 上 的 相关 信息 搜索 。 

常用 的 相关 信息 查找 方法 有 相似 性 函数 法 、 归 类 (组 ) 法 等 。 与 文档 相似 性 有 关 的 因素 
通常 包括 索引 项 在 文档 内 出 现 的 频率 位置、 相应 的 HTML 标记 (如 字体 、 链 接 ) 等 ,这 些 数 
据 的 统计 在 为 文档 建立 索引 的 时 候 就 已 经 完成 。 为 避免 单一 因素 对 搜索 结果 产生 过 大 的 影 
响 , 需 要 对 各 因素 进行 适当 的 加 权 处 理 。 各 因素 的 权重 需要 反复 地 调整 以 获得 一 个 较 好 的 
结果 。 

通常 采用 召回 率 和 精度 作为 查找 效果 的 评价 指标 。 召 回 率 是 被 抽取 的 相关 文档 占 实际 
的 相关 文档 的 比例 ,反映 的 是 查 全 率 ; 后 者 是 被 抽取 的 相关 文档 占 抽 取 文 档 的 比例 ,反映 的 
是 查 准 率 。 通 常 召 回 率 增加 ,精度 也 会 增加 。 

在 这 一 研究 领域 有 两 种 比较 有 影响 的 方法 ,就 是 PageRank 方法 和 Kleinberg 所 提出 的 
Authority and Hub 方法 。 这 两 种 方法 都 是 利用 页 面 中 的 链接 来 对 文档 的 重要 性 进行 判断 。 
前 者 将 整个 网 络 看 作 由 超 链 接 所 联系 起 来 的 有 向 图 ,链接 具有 民主 投票 的 意味 , 即 某 一 网 页 
向 被 引用 的 网 页 投了 赞成 票 ,从 而 使 PageRank 成 为 基于 网 页 链接 的 页 面 重要 性 评判 依据 。 
Google 搜索 引擎 正 是 凭借 这 一 技术 迅速 成 为 行业 的 先锋 ,后 者 在 IBM 的 CLEVER 系统 中 
得 到 应 用 。 将 搜索 与 特定 的 查询 要 求 结合 起 来 ,被 众多 查询 相关 的 页 面 所 引用 的 页 面 称 为 
权威 (Authority) ,包含 多 个 权威 网 页 链接 的 页 面 称 为 中 心 (Hub) ,权威 页 面 和 中 心 页 面 当 
然 是 用 户 最 想 要 得 到 的 查询 结果 。 


( 
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应 该 注意 到 ,这些 方法 基本 上 没有 涉及 文本 的 语义 分 析 , 所 以 还 不 能 从 根本 上 解决 相关 
性 的 问题 。 

通常 ,搜索 引擎 的 用 户 希 望 尽快 得 到 分 门 别 类 、 按 重要 性 (相关 性 ) 顺 序 排列 的 搜索 结 
果 。 作 者 认为 网 站 分 类 目录 远 不 如 搜索 结果 的 分 类 目录 更 能 满足 人 们 的 需求 。 而 目前 的 搜 
索引 擎 都 没有 提供 搜索 结果 的 分 类 ,于 是 导致 新 闻 报 道 、 公 司 介绍 、 技 术 文 章 混杂 在 一 处 ,给 
用 户 带 来 了 很 大 的 不 便 。 实 际 上 ,对 于 文档 类 别 的 判断 还 是 有 很 多 线索 的 ,比如 文档 名 、 网 
页 标题 .文档 所 在 文件 夹 文档 中 所 含 的 链接 等 。 另 一 方面 ,每 一 篇 文档 都 有 多 种 属性 ,比如 
一 篇 用 于 超 精密 加 工 设 备 的 电路 板 的 新 闻 报 道 。 所 以 文档 的 分 类 方法 也 是 多 种 多 样 的 。 一 
种 比较 符合 人 们 认 知 习惯 的 方法 是 按照 学 科 、 知 识 (概念 ) 层 次 来 进行 分 类 。 毫 无 疑问 ,类 别 
明确 .层次 清晰 的 搜索 结果 是 绝 大 多 数 用 户 所 需要 的 。 


9.3 移动 商务 智能 


面向 移动 商务 环境 的 数据 挖掘 研究 是 一 个 数据 驱动 (Data Driven) 以 及 应 用 驱动 
(Application Driven) 型 的 研究 方向 。 目 前 的 相关 研究 工作 主要 集中 在 用 户 的 移动 行为 数 
据 (User Mobility Data) 分 析 以 及 地 理 信 息 数 据 (Geographic Information Data) 分 析 等 两 个 
方面 。 具 体 来 说 ,用 户 的 移动 行为 数据 主要 包括 来 自 于 移动 设备 的 GPS 轨迹 数据 .蜂窝 基 
站 (Cell Tower) 数 据 以 及 社交 平台 的 签到 (Check-in) 数 据 等 。 基 于 这 类 数据 ,研究 者 开展 
了 面向 计程车 场景 的 移动 商务 系统 、 面 向 旅游 场景 的 商务 系统 以 及 面向 基于 位 置 社交 网 络 
场景 的 商务 系统 等 应 用 研究 。 举 例 来 说 ,Ge 等 人 通过 对 来 自 于 计程车 的 车 载 GPS 轨迹 数 
据 进 行 分 析 , 寻 找 具 有 最 大 收益 的 载 客 点 (Pick-up Points) 序 列 推荐 给 计程车 司机 。 基 于 该 
工作 ,Qu 等 人 进一步 设计 了 一 种 时 效 感知 (Cost-Efficient) 的 移动 推荐 系统 , 旨 在 为 计程车 
司机 推荐 共有 单位 时 间 最 大 收益 的 行驶 路 线 。 类 似 地 ,Yuan 等 人 根据 计程车 司机 以 及 乘 
客 的 不 同 需求 设计 了 一 系列 商务 推荐 方法 ,例如 推荐 最 佳 的 等 车 地 点 等 。Liu 等 人 根据 旅 
游 景 点 的 特色 以 及 游客 的 偏好 设计 了 一 种 情境 感知 的 旅游 套餐 推荐 方法 ,能 够 为 游客 推荐 
一 组 最 优 的 旅游 景点 组 合 。Ge 等 人 则 分 析 了 游客 对 于 费用 、 距 离 等 因素 的 不 同 偏好 ,并 设 
计 了 一 种 开销 感知 (Cost-Aware) 的 旅游 景点 推荐 方法 。Lian 等 人 结合 移动 用 户 的 签到 数 
据 , 分 析 了 位 置 社交 网 络 的 各 种 特性 ,从 而 设计 了 地 理 位 置 的 自动 化 语义 命名 方法 ,以 及 全 
新 的 位 置 推荐 算法 。 

另 一 方面 ,地 理 信 息 数据 主要 包括 城市 路 网 数据 .公共 交通 数据 ,以 及 兴趣 点 (Point-of- 
interest,POI) 数 据 等 。 基 于 这 类 数据 ,研究 者 开展 了 面向 城市 计算 (Urban Computing ) 的 
商务 系统 ,面向 兴趣 点 推荐 的 商务 系统 等 应 用 研究 。 举 例 来 说 ,Yuan 等 人 研究 了 如 何 结合 
移动 用 户 的 轨迹 数据 以 及 城市 兴趣 点 数据 ,对 城市 的 功能 区 域 进行 自动 化 的 识别 。Zheng 
等 人 则 结合 公共 交通 数据 以 及 城市 空气 监控 数据 设计 了 一 种 自动 化 的 空气 污染 预测 方法 ， 
可 以 对 缺乏 检测 站 点 的 城市 区 域 进行 空气 质量 预测 。Fu 等 人 通过 结合 城市 交通 数据 、 兴 趣 
点 信息 等 多 元 信息 ,对 城市 房地产 小 区 进行 建 模 ,从 而 能 够 精确 地 预测 最 具有 投资 价值 的 房 
地 产 小 区 。Liu 等 人 通过 分 析 移 动用 户 在 不 同 兴趣 点 的 访问 记录 ,提出 了 一 种 全 新 的 方法 
学 习 用 户 对 于 不 同 地 理 位 置 的 偏好 ,从 而 进行 更 加 精确 的 兴趣 点 推荐 。 

与 上 面 的 两 类 数据 不 同 , 来 自 于 移动 App 的 商务 数据 则 具有 更 加 丰富 的 语义 信息 。 这 
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是 因为 目前 绝 大 多 数 智能 移动 应 用 和 服务 都 是 通过 移动 设备 平台 上 的 移动 App 实现 的 , 因 
此 这 些 数据 能 够 帮助 人 们 对 移动 用 户 和 应 用 服务 进行 更 加 精确 的 理解 。 近 年 来 ,一 些 研究 
者 针对 来 自 于 移动 App 的 商务 数据 开展 了 探索 性 研究 ,例如 ,移动 App 的 推荐 系统 ,移动 
App 的 安全 隐私 分 析 等 。 举 例 来 说 ,Yan 等 人 开发 了 一 个 名 为 Appjoy 的 移动 App 推荐 系 
统 , 它 基于 用 户 的 App 实际 使 用 记录 来 构建 用 户 偏好 和 矩阵。 为 了 进一步 解决 App 使 用 记 
录 的 稀 玻 性 问题 ,Shi 等 人 研究 了 许多 推荐 模型 并 提出 了 一 种 基于 内 容 的 协同 过 滤 模 型 
Eigenapp, 并 用 此 来 为 其 网 站 Getjar 提供 推荐 服务 。Enck 等 人 提出 了 一 个 面向 移动 App 
的 恶意 代码 检测 系统 TaintDroid, 可 以 通过 监视 第 三 方 App 的 数据 访问 行为 来 进行 实时 的 
安全 分 析 。Luo 等 人 讨论 了 在 Android 系统 里 针对 WebView 攻击 的 问题 ,并 通过 一 些 基 
础 性 的 分 析 提 出 了 相应 的 解决 方案 。 为 了 检测 可 能 会 存在 信息 窃取 风险 的 移动 App,Zhou 
等 人 基于 Android 系统 提出 了 一 种 全 新 的 安全 隐私 模型 。 同 时 ,他 们 开发 了 一 个 称 作 
TISSA 的 系统 来 支撑 所 提出 的 模型 。Enck 等 人 开发 了 一 种 基于 规则 的 验证 模型 Kirin 来 
实现 移动 App 安装 时 的 轻 量 级 安全 检测 。 但 是 ,以 上 这 些 工作 通常 都 是 基于 已 有 问题 的 扩 
展 ,缺乏 对 新 型 移动 商务 问题 的 研究 。 例 如 , 现 有 的 移动 App 的 推荐 系统 均 是 基于 App 的 
流行 度 信息 (例如 ,评分 .使 用 频率 等 ), 因 而 与 传统 的 音乐 ,电影 推荐 相 比 缺 乏 本 质 上 的 创 
新 。 同 时 ,部 分 相关 研究 具有 很 强 的 领域 驱动 型 (例如 安全 领域 ) ,缺乏 对 于 移动 商业 应 用 的 
主题 敏感 性 。 


9.4 客户 关系 管理 


对 于 客户 关系 管理 中 的 客户 价值 管理 而 言 ,客户 关系 管理 关注 的 是 客户 整个 生命 周期 
与 企业 之 间 的 交互 关系 。 客 户 数量 越 多 ,单个 客户 与 企业 交易 或 是 接触 次 数 越 频 繁 ,客户 的 
生命 周期 越 长 ,最 终 企 业 所 收集 形成 的 客户 数据 量 越 大 。 对 于 海量 的 客户 数据 ,需要 用 到 数 
据 挖 掘 技术 来 分 析 和 处 理 , 发 现 其 中 有 价值 的 客户 信息 ,支持 企业 的 市 场 影响 、 销 售 或 客户 
服务 决策 等 。 客 户 关系 管理 中 的 数据 挖掘 应 用 模型 如 图 9-1 所 示 。 


阔 据 仓库 。 | 履 提 控 所 | 预 沿 和 度量 模型 | 决 生计 人 | 客户 关系 管理 决策 
t 


图 9-1 数据 挖掘 应 用 模型 
数据 挖掘 在 客户 关系 管理 中 的 具体 应 用 可 以 用 如 下 几 个 方面 来 进行 分 析 。 


9.4.1 营销 


企业 的 市 场 营销 战略 的 成 功 很 大 程度 上 需要 以 充分 的 市 场 调研 和 消费 者 信息 分 析 为 基 
础 ,这 些 信 息 用 来 支持 目标 市 场 的 细 分 和 目标 客户 群 的 定位 ,制定 有 针对 性 的 营销 措施 , 提 
高 客户 响应 率 ,降低 营销 成 本 ,还 提供 客户 需求 的 趋势 分 析 ,使 得 企业 能 够 对 稍 纵 即 逝 的 市 
场 机 遇 做 出 灵敏 的 反应 。 

计算 机 、 网 络 .通信 技术 的 迅速 发 展 ,以 及 这 些 技术 的 联合 应 用 ,对 企业 的 营销 产生 了 重 
要 的 影响 。 企 业 与 客户 通过 Web、E-mail、 电 话 等 渠道 进行 交互 和 沟通 已 经 相当 普遍 。 这 些 
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类 型 的 营销 活动 给 潜在 客户 提供 了 更 好 的 客户 体验 ,使 得 潜在 客户 以 自己 的 方式 ,在 方便 的 
时 间 获 取 所 需 的 信息 。 为 了 获得 更 大 的 价值 ,通过 对 数据 与 信息 的 分 析 与 挖掘 ,企业 营销 人 
员 可 以 对 这 些 商 业 获得 进行 跟踪 ,使 潜在 消费 尽 可 能 地 成 为 现实 消费 。 

目前 在 营销 方面 应 用 最 为 成 熟 的 是 数据 库 营 销 (Database Marketing)。 数 据 库 营销 的 
任务 是 通过 交互 式 查询 ,数据 分 割 和 模型 预测 等 方法 来 选择 潜在 的 客户 以 便 向 他 们 推销 产 
品 。 通 过 对 已 有 的 客户 数据 的 分 析 , 可 以 将 用 户 分 为 不 同 的 级 别 , 级 别 越 高 ,其 购买 可 能 性 
越 大 。 在 进行 营销 分 析 时 ,首先 对 已 有 的 用 户 信息 进行 手工 分 类 ,分 类 的 依据 通常 由 专家 根 
据 用 户 的 实际 边线 给 出 ,这 样 得 到 训练 数据 后 ,由 数据 挖掘 进行 学 习 得 出 用 户 分 类 模式 。 当 
新 用 户 到 来 时 ,可 以 由 已 经 学 习 的 系统 给 出 其 购买 可 能 性 的 预测 结果 ,从 而 可 以 根据 预测 结 
果 对 不 同 客 户 采取 有 针对 性 的 营销 措施 。 


9.4.2 销售 


销售 力量 自动 化 (Sale Force Automation,SFA) 是 当前 客户 关系 管理 中 应 用 最 为 成 熟 
的 部 分 。 销 售 人 员 与 潜在 客户 互动 ,将 潜在 客户 发 展 为 企业 真正 的 客户 并 保持 其 忠诚 度 , 是 
企业 一 利 的 核心 因素 。 数 据 挖掘 可 以 对 多 种 市 场 活动 的 有 效 性 进行 实时 跟踪 和 分 析 。 在 此 
过 程 中 ,数据 挖掘 可 以 使 销售 人 员 能 够 及 时 把 握 销 售 机 遇 ,缩短 销售 周期 , 极 大 地 提高 工作 
效率 。 例 如 ,超市 的 购物 篮 分 析 (Basket Analysis) 通 过 分 析 事 物 数据 库 来 发 现在 购物 活动 
中 频繁 出 现 的 商品 组 合 ,以 此 识别 客户 的 购买 行为 模式 。 目 前 购物 篮 分 析 已 经 在 改善 交叉 
销售 比 、 楼 层 和 货架 安排 ,货物 布置 以 及 Web 页 面 的 目录 层次 安排 等 方面 取得 了 显著 效果 。 


9.4.3 客户 服务 


客户 服务 是 客户 关系 管理 中 最 为 关键 的 因素 ,优质 的 客户 服务 是 吸引 新 客户 、 保 留 老 客 
户 .提高 客户 满意 度 和 忠诚 度 的 关键 。 通 过 对 于 客户 人 口 统计 数据 以 及 历史 消费 信息 的 数 
据 挖 掘 分 析 ,归纳 出 客户 的 个 人 偏好 消费 习惯 .需求 特征 等 ,企业 就 可 以 有 的 放 矢 地 为 客户 
提供 快捷 、 准 确 的 一 对 一 定制 服务 。 


9.4.4 客户 保持 


现在 各 个 行业 的 竞争 越 来 越 激烈 ,企业 获得 新 客户 的 成 本 也 不 断 地 上 升 ,因此 保持 原 有 
客户 对 所 有 企业 来 说 就 显得 越 来 越 重 要 。 比 如 在 美国 ,移动 通信 公司 每 获得 一 个 新 用 户 的 
成 本 平均 是 300 美元 ,而 挽留 住 一 个 老 客 户 的 成 本 可 能 仅仅 是 通 一 个 电话 。 成 本 上 的 差异 
在 各 行业 可 能 会 不 同 ,在 金融 服务 业 .通信 业 ,高 科技 产品 销售 业 , 这 个 数字 是 非常 惊人 的 ， 
但 无 论 什 么 行业 ,6 一 8 倍 以 上 的 差距 是 业界 公认 的 ,而 且 , 与 新 客户 相 比 , 老 客户 能 够 贡献 
更 多 的 利润 。 

近 几 年 ,国内 一 对 一 (One To One) 营 销 正在 被 越 来 越 多 的 企业 和 媒体 宣传 。 一 对 一 营 
销 是 指 了 解 企业 的 每 一 个 客户 ,并 与 之 建立 起 长 期 持久 的 关系 。 这 个 看 似 很 新 的 概念 却 一 
直 采 用 很 陈旧 的 方法 执行 ,甚至 一 些 公司 理解 的 一 对 一 营销 就 是 每 逢 客户 生日 或 纪念 日 寄 
一 张 卡片 。 在 科技 发 展 的 今天 ,的 确 每 个 人 都 可 以 有 一 些 自己 独特 的 商品 或 服务 。 比 如 按 
照 自己 的 尺寸 做 一 套 很 合身 的 衣服 ,但 实际 上 营销 不 是 裁 衣 服 , 企 业 可 以 知道 什么 样 的 衣服 
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适合 企业 的 客户 ,但 永远 不 会 知道 什么 股票 适合 企业 的 客户 。 一 对 一 营销 是 一 个 很 理想 化 
的 概念 ,大 多 数 行业 在 实际 操作 中 是 很 难 做 到 的 。 

数据 挖掘 可 以 把 企业 大 量 的 客户 分 成 不 同 的 类 ,在 每 个 类 里 的 客户 拥有 相似 的 属性 ,而 
不 同类 里 的 客户 的 属性 也 不 同 。 企 业 完 全 可 以 做 到 给 不 同类 的 客户 提供 完全 不 同 的 服务 来 
提高 客户 的 满意 度 。 客 户 分 类 的 好 处 显而易见 ,即使 很 简单 的 分 类 也 可 以 给 企业 带 来 令 人 
满意 的 结果 。 比 如 说 如 果 企业 知道 客户 中 有 85% 是 老年 人 ,或 者 只 有 20% 是 女性 ,相信 企 
业 的 市 场 策略 都 会 随 之 而 不 同 。 数 据 挖掘 同样 也 可 以 帮助 企业 进行 客户 分 类 ,细致 而 切实 
可 行 的 客户 分 类 对 企业 的 经 营 策略 有 很 大 益处 。 


9.4.5 ”风险 评估 和 欺诈 识别 


金融 领域 .通信 公司 或 者 其 他 商业 上 经 常 发 生 欺 诈 行 为 ,如 信用 卡 的 恶性 透支 .保险 欺 
诈 、 盗 打 电 话 等 ,这 些 给 商业 单位 带 来 了 巨大 的 损失 。 对 这 类 欺诈 行为 进行 预测 ,尽管 可 能 
的 预测 准确 率 很 低 , 但 也 会 减少 发 生 诈骗 的 机 会 ,从 而 减少 损失 。 进 行 欺诈 识别 和 风险 评估 
主要 是 通过 总 结 正常 行为 和 欺诈 或 异常 行为 之 间 的 关系 ,得 到 非 正 常 行为 的 特性 模式 ,一 旦 
某 项 业务 符合 这 些 特征 时 ,就 可 以 向 决策 人 员 提 出 警告 。 

我 们 将 数据 挖掘 的 方法 运用 到 风险 评估 和 欺诈 识别 中 去 ,可 以 从 以 下 几 个 方面 加 以 
分 析 。 

(1) 异常 数据 : 相对 于 自身 的 异常 数据 ,相对 于 其 他 群体 的 异常 数据 。 

(2) 无 法 解释 的 关系 : 检测 具有 不 正常 值 的 记录 ,相同 或 者 相近 的 记录 等 。 

(3) 通常 意义 下 的 欺诈 行为 : 已 被 证 实 的 欺诈 行为 可 以 用 于 帮助 确定 其 他 可 能 的 欺诈 行为 。 

基于 这 些 历史 数据 找到 检测 欺诈 行为 的 规则 和 评估 风险 的 标准 ,定义 记录 下 可 能 或 者 
类 似 欺 诈 的 事物 。 

通过 数据 挖掘 回归 技术 、 决 策 树 .神经 元 网 络 等 进行 欺诈 的 预测 和 识别 ,将 有 用 的 预测 
合并 加 入 到 历史 数据 库 中 ,并 用 来 帮助 寻找 相近 而 未 被 发 现 的 案例 。 随 着 数据 库 中 知识 的 
积累 ,预测 系统 的 质量 和 可 信 度 都 会 大 大 增强 。 


9.5 客户 分 类 


企业 运营 的 前 提 是 确定 “ 谁 是 你 的 客户 ”和 对 客户 进行 科学 有 效 的 细 分 。 通 过 客户 分 
类 ,企业 可 以 更 好 地 识别 不 同 的 客户 群体 ,采取 差异 化 营销 策略 ,从 而 有 效 地 降低 成 本 ,同时 
获得 更 强 、 更 有 利 可 图 的 市 场 渗透 。 

客户 是 企业 最 重要 的 资源 之 一 。 现 代 企业 之 间 的 竞争 主要 表现 为 对 客户 的 全 面 争 夺 ， 
而 是 否 拥有 客户 取决 于 企业 与 客户 之 间 的 状况 。 企 业 要 改善 与 客户 之 间 的 关系 ,就 必须 进 
行 客户 关系 管理 。 客 户 分 析 是 客户 关系 管理 的 基础 ,而 客户 分 析 的 一 些 重要 内 容 是 客户 细 
分 ,但 目前 还 没有 有 效 的 客户 细 分 方法 。 

客户 让 渡 价 值 (Customer Delivered Value) 理 论 和 客户 生命 周期 价值 理论 从 不 同 的 角 
度 对 客户 与 企业 的 交易 过 程 中 产生 的 价值 感受 提供 了 研究 基础 。 客 户 让 渡 价值 是 从 客户 角 
度 出 发 的 感知 效用 ,衡量 的 是 客户 感知 收益 (产品 价值 .服务 价值 .人员 价值 和 形象 价值 ) 与 
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感知 付出 (货币 成 本 、 时 间 成 本 、 精 力 成 本 、 体 力 成 本 ) 之 间 的 比例 。 这 种 价值 理论 容易 导致 
企业 只 考虑 占有 率 , 盲 目 追求 客户 让 渡 价 值 , 而 忽略 企业 利润 。 另 外 ,这 种 价值 理论 是 一 种 
感知 理论 ,会 涉及 大 量 主观 成 分 ,需要 采用 问卷 调查 .直觉 判断 等 获得 ,难以 付 诸 实践 ,度量 
也 很 难 做 到 客观 准确 。 客 户 生 命 周 期 价值 (Customer Lifetime Value,CLV) 从 企业 的 角度 
出 发 ,是 客户 在 整个 生命 周期 中 各 个 交易 时 段 为 企业 带 来 的 利润 净 现 值 之 和 。 客 户 生命 周 
期 价值 分 为 客户 当前 价值 (Customer Current Value, CCV) 和 客户 潜在 价值 (Customer 
Potential Value,CPV) 两 部 分 , 既 反 映 了 收益 流 对 企业 利润 的 贡献 ,又 明确 地 扣除 了 企业 为 
取得 该 收益 流 所 付出 的 代价 ,同时 更 重要 的 是 客户 生命 周期 价值 充分 考虑 了 客户 将 来 对 企 
业 的 长 期 增值 潜力 ,因此 能 客观 .全面 地 度量 客户 将 来 对 企业 的 总 体 价 值 。 


9.5.1 传统 的 客户 分 类 理论 


传统 的 客户 分 类 理论 主要 是 指 基 于 客户 统计 学 特征 的 客户 分 类 和 基于 客户 让 渡 价 值 理 
论 的 客户 分 类 。 基 于 客户 统计 学 特征 (年 龄 ,性 别 、 收 入 、 职 业 、 地 区 等 ) 的 客户 分 类 方法 已 为 
大 家 所 熟悉 ,该 方法 虽然 简单 易 行 ,但 缺乏 有 效 性 ,难以 反映 客户 需求 .客户 价值 和 客户 关系 
阶段 ,难以 指导 企业 如 何 去 吸 引 客 户 、 保 持 客户 ,难以 适应 客户 关系 管理 的 需要 。 基 于 客户 
让 滤 价 值 理论 的 客户 分 类 虽然 比较 全 面 地 概括 了 客户 对 于 企业 的 所 有 可 感知 的 价值 ,但 该 
细 分 方法 容易 导致 企业 只 考虑 市 场 占 有 率 , 盲 目 追 求 客 户 让 渡 价 值 , 而 忽略 企业 利润 。 另 
外 ,这 种 细 分 方法 因为 涉及 大 量 主观 感知 成 分 ,也 导致 了 在 实践 中 难以 操作 实施 .度量 难以 
做 到 客观 准确 等 问题 。 


9.5.2 基于 客户 行为 的 客户 分 类 


这 种 细 分 方法 充分 利用 了 企业 大 量 存储 的 客户 数据 资源 ,其 操作 与 实施 简单 易 行 ,但 该 
方法 也 存在 难以 反映 客户 价值 和 客户 关系 阶段 的 问题 。 


9.5.3 基于 客户 生命 周期 的 客户 分 类 


前 面 介绍 的 基于 客户 生命 周期 的 客户 分 类 理论 把 客户 关系 划分 为 开拓 期 .形成 期 稳定 
期 和 衰退 期 等 几 个 阶段 ,可 以 清晰 地 洞察 客户 关系 的 动态 特征 和 不 同 的 阶段 客户 的 行为 特 
征 , 使 企业 针对 客户 所 处 阶段 进行 有 针对 性 的 营销 ,促使 客户 向 稳定 期 发 展 , 或 者 延长 稳定 期 。 

不 过 该 方法 也 存在 不 足 ,该 方法 难以 识别 相同 生命 周期 阶段 的 客户 差异 。 同 是 形成 期 
的 客户 ,客户 价值 存在 差异 ,无 法 识别 。 如 果 平 均 用 力 ,将 难以 避 开 不 良 客户 。 


9.5.4 基于 客户 生命 周期 价值 的 客户 分 类 


基于 客户 生命 周期 价值 (Customer Lifetime Value,CLV) 的 细 分 理论 能 从 狭义 上 把 
CLYV 定义 为 客户 在 将 来 为 企业 带 来 的 利润 流 的 总 现 值 , 即 未 来 利润 ,并 认为 客户 当前 价值 
(Customer Current Value,CCV) 和 客户 潜在 价值 (Customer Potential Value,CPV) 从 不 同 
侧面 反映 了 客户 的 这 种 未 来 利润 ,CCV 和 CPYV 两 项 之 和 就 是 客户 在 未 来 可 为 企业 带 来 的 
总 利润 , 即 CLV 王 CCV 十 CPV。 

该 细 分 理论 在 全 面 衡量 了 客户 当前 价值 (CCV) 和 潜在 价值 (CCPV) 后 ,对 其 中 当前 价值 
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和 潜在 价值 都 高 的 客户 认定 为 最 有 价值 的 客户 ,重点 投入 ,不 遗 余力 地 保持 ; 相反 ,两 项 取 
值 都 较 低 的 客户 价值 较 小 ,可 少 投入 或 不 投入 任何 资源 。 

该 细 分 理论 的 不 足 在 于 , 它 没有 考虑 到 客户 忠诚 度 对 CLV 的 影响 。 一 个 忠诚 度 低 的 
客户 ,即使 他 拥有 高 的 当前 价值 及 潜在 价值 ,他 的 CLV 值 也 相对 较 低 ,企业 如 果 对 其 进行 
重点 投入 就 会 带 来 损失 ,因为 高 的 客户 转换 率 会 使 企业 的 营销 努力 付 之 东 流 , 因 此 仅 利用 客 
户 当 前 价值 和 客户 潜在 价值 两 个 维度 对 CLV 进行 预测 并 进行 客户 价值 细 分 也 存在 一 定 的 
局 限 性 。 


小 结 


电子 商务 是 商业 领域 的 一 种 新 兴 商 务 模式 , 它 是 以 网 络 为 平台 ,以 现代 信息 技术 为 手 
段 , 以 经 济 效益 为 中 心 的 现代 化 商业 运转 模式 ,其 最 终 目 标 是 实现 商务 活动 的 网 络 化 .自动 
化 与 智能 化 。 电 子 商务 的 产生 改变 了 企业 的 经 营 理念 .管理 方式 和 支付 手段 ,给 社会 的 各 个 
领域 带 来 了 巨大 的 变革 。 随 着 网 络 技术 的 迅猛 发 展 和 社会 信息 化 水 平 的 提高 ,电子 商务 显 
示 出 巨大 的 市 场 价值 和 发 展 潜力 。 当 电子 商务 在 企业 中 得 到 应 用 时 ,企业 信息 系统 将 产生 
大 量 数据 ,并 且 和 迫切 需要 将 这 些 数 据 转换 成 有 用 的 信息 和 知识 ,为 企业 创造 更 多 潜在 的 利 
润 , 数 据 挖掘 概念 就 是 从 这 样 的 商业 角度 开发 出 来 的 。 数 据 挖掘 是 一 种 新 的 商业 信息 处 理 
技术 ,其 主要 特点 是 对 商业 数据 库 中 的 大 量 业 务 数 据 进 行 抽取 、 转 换 、 分 析 和 其 他 模型 化 处 
理 , 从 中 提取 辅助 商业 决策 的 关键 性 数据 。 利 用 功能 强大 的 数据 挖掘 技术 ,可 以 使 企业 把 数 
据 转化 为 有 用 的 信息 帮助 决策 ,从 而 在 市 场 竞 争 中 获得 优势 地 位 。 


习题 
1. 举例 说 明 数 据 挖掘 在 电子 商务 中 有 哪些 方面 的 应 用 。 


2. 总 结 数据 挖掘 在 客户 关系 管理 中 的 应 用 ,并 举例 说 明 。 
3. 找 一 个 利用 数据 挖掘 给 网 店 推荐 商品 的 例子 。 
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